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(57) Abstract: The invention relates to procedures and methods for administering and transferring data within multi-dimensional 
systems consisting of transmitters and receivers. The division of a data stream into several independent branches and the subsequent 
combination sequential collection of the individual branches to form a data stream can be carried out in a simple manner. The 
individual data streams are re-combined in a correct time sequence. Said inventive method is particularly useful for processing 
re-entrant codes and is suitable for configurable architectures wherein efficient control of the conOguratiDn and reconfiguration is 
highly important. 
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(57) Zusammenfassung: Die Erfindung beschriebt Verfahren und Methoden zur Venvaltung und zum Transfer von Daten innerhalb 
von mehrdimensionalen Anordnungen von Sendem und Empfangem. Das Aufteilen eines Datenstromes in mehrere unabhangige 
Zweige und das nachfolgende Zusammenfassen der einzelnen Zweige zu einem Datenstrom soil einfach durchfuhrbar sein, wobei die 
einzelnen Datenstrome in der korrekten zeitlichen Reihenfolge wieder zusammengefasst werden. Insbesondere zur Abarbeitung von 
reentrantem Code ist dieses Verfahren von besonderer Wichtigkeit. Das beschriebene Verfahren ist insbesondere fUr konfigurierbare 
Architekturen geeignet, die effiziente Steuerung der Konfiguration und Rekonfiguration flndet besondere Beachtung. 
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Titel: Verfahren und Vorrichtungen zur Datenbe- und/oder 
Verarbeitung 



15 



Beschreibung 

Die Erfindung beschriebt Verfahren und Methoden zur Verwal- 
tung und zum Transfer von Daten innerhalb von mehrdlmensiona 

20 len Anordnungen von Sendern und Empfangern. Das Aufteilen ei 
lies Datenstromes in mehrere unabhangige Zweige und das nach- 
folgende Zusammenf assen der einzelnen Zweige zu eihem Daten-^ 
Strom soil einfach durchfiihrbar sein, wobei die einzelnen Da 
tenstrCirte in der korrekten zeitlichen Reihenfolge wieder zu- 

25 sanunengefasst werden. Insbesondere zur Abarbeitung von reen- 
tranteiti Code ist dieses Verfahren von besonderer Wichtigkeit 
Das beschriebene Verfahren ist insbei^ondere fur konfigurier- 
bare Architekturen geeignet, die. effiziente Steuerung der 
Konfiguration und .Rekonf iguration findet besondere Beachtung 

30 : 

Aufgabe der Erfindung ist es, Neues fur die gewerbliche Nut- 
zung bereitzustellenir 



ERSATZBLATT (REGEL 26) 
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Die Losung der Aufgabe wird unabhangig beansprucht. Bevorzug- 
te Ausfuhrungsformen befinden sich in den Unteranspruchen . 

Unter einer rekonf igurierbaren Architektur werden vorliegend 
■5 Bausteine (VPU) mit konf igurierbarer Funktion und/oder Ver- 
netzung verstanden, insbesondere integrierte Bausteine mit 
einer Mehrzahl von ein- oder mehrdimensional angeordneten 
arithmetischen und/oder logischen und/oder analogen und/oder 
speichernden und/oder intern/extern vernetzenden Baugruppen, 
10 die direkt oder durch ein Bussystem miteinander verbunden 
sind. 

• Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays^ neuronale Netze, Mehrprozessor Systeme, Prozessoren 

15 mit mehreren Rechenwerken und/oder logischen Zeilen und/oder. 
kommunikativen/peripheren Zellen (10), Vernetzungs- und Netz- 
werkbausteine wie z.B. Crossbar-Schalter, ebenso wie bekannte 
Bausteine der Gattung FPGA, DPGA, Chameleon^ XPUTER, etc. . 
Hingewiesen wird insbesondere in diesem Zusammenhang auf die 

20 fblgenden Schutzrechte und Anmeldungen desselben Anmelders: P 
44 16 881,0-53, .DE 197" 81 412.3/ DE 197 81 483.2,. 
DE 196 54 846.2-53, DE 196 54 593.5-53, DE 197*04 044.6-53, 
DE 198 80 129.7, DE 198 61 088,2-53., DE 199 80 312.9, 

• PCT/DE 00/01869, DE 100 36 627.9-33, ^E 100 28 397.7, 
25 DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, . 

EP 01 102 674. T, PACT02, PACT04, PACT05, PACT08, PACTIO., 
PACTll, PACT13, PACT21-, PACT13, PACTlSb, PACT18 (a) , 
PACT25(a,b). Diese sind hiermit zu Of f enbarungszweqken . 
VollumfSnglich eingegliederf. 

30 

Die o.g. Architektur wird beispielhaft zur Verdeutlichung 
herangezogen und im. folgenden VPU genannt. Die Architektur 
besteht aus beliebigen arithm:etischen, logischen- (auch Spei- 
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Cher) und/oder Speicherzellen und/oder Vernetzungszellen 
und/oder koiranunikativen/peripheren (10) Zellen (PAEs) , die zu 
einer ein- oder mehrdimensionalen Matrix (PA) angeordnet sein- 
kSnnen^ wobei die Matrix unterschiedliche beliebig ausgestal- 
tete Zellen aufweisen kann, auch die Bussysteme werden dabei 
als Zellen verstanden. Der Matrix als ganzes oder Teilen da- 
von zugeordnet ist eine Konf igurationseinHeit (CT) , die die 
Vernetzung und Funktion des PA beeinflufit. 

Beschreibung der Erfindung 

Die konf igurierbaren Zellen einer VPU miissen zur korrekten 
Verarbeitung von Daten miteinander synchronisiert werden. Da- 
zu dienen zwei unterschiedliche Protokolle^ eines zur Syn- 
chronisation des Datenverkehrs und ein weiteres zur Ablauf- 
steuerung der Datenverarbeitung. Daten werden bevorzugt aber 
eine Mehrzahl konf igurierbarer Bussysteme ubertragen. Konfi- 
gurierbare Bussysteme bedeutet insbesondere, dass beliebige 
PAEs Daten senden und die Verbindung zu den Empf anger-PAEs, 
sowie insbesondere die Empf anger- PAEs beliebig konf igurierbar 
sind. 

Die Synchronisation des Datenverkehrs erfolgt bevorzugt durch 
Handshake-Protokolle, die mit.den Dat^n ubertragen werden. In 
der nachfolgehden Beschreibung werden einfache Handshakes so- 
wie komplexe Ve'rfahrisn beschrieben, deren bevorzugte Anwen- 
dung von der jeweilig auszuftihrenden Applikation oder Appli- 
kationsmenge abhangig ist. 

Die Ablaufsteuerung erfolgt durch Signale (Trigger) die den 
Status einer PAE anzeigen. Trigger konnen unabhangig vori den 
Daten iiber frei konf igurierbare Bussysteme gefuhrt werden, 
d.h. konnen unterschiedliche Sender und/oder Empf anger besit- 
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zen und weisen bevorzugt ebenfalls Handshake-Protokolle auf . 
Trigger werden durch einen Status einer sendenen PAE gene- 
riert (z.B. Zero-Flag^ Overflow-Flag, Negativ-Flag) , indem 
einzelne Zustande oder Koitibinationen weitergeleitet werden. 

5 

Datenverarbeitende Zellen (PAEs) innerhalb einer VPU konnen 
verscheidene Verarbeitungs zustande annehmen, die vom Konfigu- 
rationszustand der Zellen und/oder eintref f enden oder einge- 
troffenen Triggern abhangen: 
10 ,,not configured'^ : 

Keine Datenverarbeitung 
,,conf igured^' : 

GO alle eintref f enden Daten werden berechnet. 

STOP eintref fende Daten werden nicht berechnet. 
15 STEP genau eine Berechnung wird durchgeftihrt . 

GO, STOP und STEP werden durch im folgenden beschriebene 
Trigger ausgelOst. 

20 Handshake Synchronisation 

Ein besonders einf aches und dennoch- sehr leistungsf ahiges 
. Handshake-Protokoll, das bevorzugt bei der Ubertragung von 

Daten und Triggern Anwendung findet, wird nachfolgend be- 

schrieben. Die Steuerung der HandshakerProtokolle ist bevor- 
25 • zugt f est in der Hardware vorgegeben und kann einen wesentli- 

Chen Bestandteil des Datenverarbeitungparadigmas einer VPU 

darstelien. Die Grundlagen dieses Protokolles sind bereits in 
• PACT 02 beschrieben. 

Mit jeder von einem Sender Ober" einen beliebig^n Bus gesende- 
30 ten Information -wird. ein RDY-Signal mitgesendet, das die Gul- 

tigkeit der Information anzeigt. 



4 
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Der Empfariger verarbeitet nur Inf ormationen die mit einem 
RDY-Signal. versehen sind, alle anderen Inf ormationen werden 
ignoriert . 

Sobald die Inf ormationen vom EmpfSnger verarbeitet warden und 
5 der EmpfSnger neue Inf ormationen entgegennehmen kann^. zeigt 
er durch senden eines Quittierungssignales (ACK) dem Sender 
an, dali dieser nehe Inf ormationen absenden darf . Der Sender 
wartet immer auf das Eintreffen von ACK, bevor er erneut Da-r 
ten absendet. 

10 Es wird zwischen zwei Betriebsarten unterschieden: 

a) ,,dependend^' : Alle Eingange, die Inf ormationen entgegenneh- • 
men mussen ein gultiges RDY besitzen bevor die Information 
verarbeitet wird. Erst dann wird das ACK generiert. 

b) ,,independent'^ : Sobald ein Eingang, der Inf ormationen ent- 
15 gegennimmt ein gtiitiges RDY besitzt, wird fur diesen bestimm- 

ten Eingang ein ACK generiert, sofern der Eingang Daten ent- 
gegennehmen kann, d.h, die vorhergegangenen Daten verarbeitet 
wurden; anspnsten wird auf die Verarbeitung der Daten gewar- 
. tet. 

20 Die Durchfiihrung der Synchronisation und die Steuerung der 
Datenverarbeitung kann nach dem Stand der Technik durch eine 
fest implementierte Statemachine (siehe PACT02), durch eine 
feingranular konf igurierte Zustandsmaschihe (siehe PACTOl, 
PACT04) Oder vorzugsweise durch einen ^^rogrammierbaren Se- 

25 quenzer (PACT13) erfolgen. Die programmierbare Statemachine 
ward entsprechend des a:uszufuhrenden Ablaufes konf iguriert . 
Der Baustein EPS.448 von Altera (ALTERA Data Book 1993) reali- 
siert beispielsweise einen derartigen programmierbaren Se- 
quenzer. 

30 . 

Eine besondere Aufgabe von Handshake-Protokolle fiir VPUs ist 
die Durchfuhrung einer pipeline-art igen Datenverarbeitung^. 
bei welcher insbesondere in jedem Taktzyklus Daten in jeder 
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PAE verabeitet werden konnen. Diese Forderung fuhrt zu beson- 
deren Anspruchen an die Funktionsweise von Handshakes. Am 
Beispiel eines RDY/ACK Protokolls wird die Problemstellung 
und Losung dieser Aufgabe aufgezeigt: 

5 

Figur la zeiigt einen Aufbau einer Pipeline innerhalb einer 
VPU. Die Daten werden Qber (vorzugsweise konf igurierbare) 
Bussysteme (0107," 0108, 0109) an Register (0101, 0104) ge- 
fuhrt, denen eihe ggf • datenverarbeitende Logik (0102, 0105) 

10 nachgeschaltet ist. Dieser ist eine Ausgabestufe (0103, 0106) 
' zugeordnet, die' bevorzugt wieder ein Register enthalt, um die 
Ergebnisse wieder auf einen Bus auf zuschalten. Sowohl uber 
die Bussysteme (0107, 0108, 0109) als auch durch die daten- 
verarbeitende Logik wird bevorzugt (0102, 0105) das RDY/ACK 

15 Protokoll zur Synchronisation abertragen. 

Zwei Semantiken kommen ftir das RDY/ACK Protokoll in Frage: 

a) ACK bedeutet "Empf anger wird Daten ubernehmen", mit dem 
Effekt, dass die Pipeline in jedem Takt arbeitet. Es entsteht 
jedoch das Problem, dass aufgrund der . hardwaretechnischen 

20 Realisierung im Fall eines Pipeline-Stall das ACK asynchron 
aber alle angehalteneh Stufeh der Pipeline lauft. Dies fuhrt 
zu erheblichen Problemen beim Zeitverhalten, insbesondere bei 
grofien VPUs und/oder hohen Taktf requenzen . 

b) ACK bedeutet' "Empf anger hat Daten u^bernommen" , mit dem Ef- 
25 fekt, dass das ACK immer jeweils nur bis zur nachsten Stufe 

lauft und dort ein Register vorhanden ist. Das dadurch ent- 
stehende Problem ist, dass' die Pipeline aufgrund der Verzoge- 
rung des in der hardwaretechnischen Realisierung notwendigen 
Registers nur noch in jedem, zweiten Takt arbeitet - 

.30 

Die Losung der Aufgabe liegt in der Kombination beider Seman- 
tiken wie in Figur lb dargestellt, die die Stufen 0101 bis 
0103 ausschnittsweise verdeutlicht . Auf den Bussystemen 
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(0107, 0108, 0109) wird das Protokoll b) verwendet, indem ein 
• Register (0110) das eintreffende RDY luit deiti Einschreiben der 
ubertragenen Daten in ein Eingangsregister um einen Takt ver- 
zSgert und als ACK wieder auf den Bus weiterleitet . Diese 
5 Stufe (0110) arbeitet quasi als Protokollkonverter zwischen 
einem Busp'rotokoll und dem Protokoll innerhalb einer daten- 
verarbeitenden Logik. 

Die datenyerarbeitende Logik verwendet das Protokoll a) . Die- 
ses wird erzeugt durch einen nachgeschalteten Protokollkon- 

10 verter (0111) . Das besondere an 0111 ist, dass eine Voraussa- 
ge getroffen werden muss, ob die eintref f enden Daten von" der 
"datenverarbeitenden Logik auch tatsachlich vpm Bussysteiti ab- 
genoitimen werden.. Dies wird dadurch gelost, dass ein zusatzli- 
ches Pufferregister (0112) in den Ausgangsstuf en (0103, 0106) 

15., fur die auf das Bussystem zu ubertragenden Daten eingefuhrt 
wird. Die durch die datenverarbeitende Logik generierten Da- 
ten werden zugleich an das Bussystem und in das Pufferregi- 
ster geschrieben. Kann der Bus die Daten nicht abnehmen, d.h. 
das ACK des Bussystems bleibt aus, sind die Daten im uPffer- 

20 register vorhanden und werden sobald das Bussystem bereit ist 
fiber einen Multiplexer' (0113) auf das Bussystem geschaltet. 
Ist das Bussystem sofort. zur Abnahme der Daten bereit, werden 
die Daten fiber Multiplexer (0113) den direkt auf den Bus wei- 
tergeleitet. Das Pufferregister ermoglicht die Quittierung 

25 mit der Semantik a) , da so lange mit "Empfanger wird Daten 
fibernehmen" quittiert werden kann, wie das Pufferregister 
leer ist, da durch das Einschreiben in das Pufferregister si- 
chergestellt ist, dass die Daiten nicht verloren gehen. 

. 30 

Trigger 

III VPU Bausteinen werden zur Ubertragung einfacher Informa- 
tionen sogenannte Trigger verwendet, deren Grundlagen in. 
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PACT08 beschrieben sind. Trigger werden mittels eines in Seg- 
mente aufgeteilten ein- oder mehrdimensionalen Bussystems 
. libertragen. Die einzelnen Segmente kQnnen mit Treibern zur 
Verbesserung der Signalqualitat ausgestattet sein. Die jewei- 
5 ligen Triggerverbindungen^ die iiber eine Verschaltung mehrere 
Segmente realisiert wird^ wird voiti Anwender programmiert und 
* uber die CT. konfiguriert . 
Trigger libertragen beispielsweise vor allem, jedoch nicht 
aus-schlieBlich^ die nachf olgenden Inf ormationen oder beliebi- 
10- ge Kombinationen dieser 

* Statusinf ormationen von Rechenwerken (ALUs), z.B. 

- Carry 

- Division by Zero 

- Zero 

15 - Negativ 

- Under- /Overflow 

* Ergebnisse von Vergleichen und/oder Schleifen 

* n-bit Inf ormationen (fur kleine n) 

* Interruptanf orderungen, die intern oder extern gene- 
20 riert werden 

Trigger werden von beliebigen Zellen generiert und werden 
durch beliebige Ereignisse in den einzelnen Zellen angesteu- 
ert. Insbesondere konnen Trigger von ei4-ner CT oder einer ex- 
25 ternen Einheit, die auBerhalb des Zellarrays oder des Bau- 
steines. generiert werden. 

Trigger werden von beliebigen Zellen empfangen und auf belie- 
bige Art ausgewertet. Insbesondere korinen Trigger von einer 
CT Oder einer externeh Einheit, die* auBerhalb des Zellarrays 
30. Oder des Bausteines ausgewertet werden. 

Trigger dienen hauptsachlich der Ablauf steuerung innerhalb 
einer VPU, beispielsweise fiir Vergleiche und/oder Schleifen.. 

• ; . 8 
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Datenpfade und/oder Verzweigungen konnen durch Trigger frei- 
geschaltet (enabled) oder gesperrt (disabled) werden. 
Ein weiterer wesentlicher Einsatzbereich von Triggern ist das 
Synchronisieren und Ansteuern von Sequenzern, sowie deren In- 
5 f ormationsaustausch; ebenso wie die Steuerung der Datenverar- 
beitung in den Zellen. 

Die Verwaltung von Triggern und die Steuerung der Datenverar- 
beitung kann nach dem Stand der Technik durch eine fest im- 
plementierte Statemachine (siehe PACT02, PACT08), durch eine 

10 feingranular konf igurierte Zustandsmaschine (siehe PACTOl, 
PACT04, PACT08, [Chameleon]) oder vorzugsweise durch eine 
programmierbare Statemachine (PACT13) erfolgen. Die program- 
mierbare Statemachine wird entsprechend des auszuf iihrenden 
Ablaufes konf iguriert . Der Baustein EPS448 von Altera [ALTERA 

15 Data Book 1993] realisiert beispielsweise einen derartigen 
programmierbaren Sequenzer. 

Grundverfahren 

20 Die einfachen Synchronisationsverf ahren mit Rdy/Ack Protokol- 
len erschweren die Verarbeitung von komplizierten Datenstr5- 
men, da der Aufwand zur Einhaltung der korrekten Reihenfolge 
sehr hoch ist. Die korrekte Implementierung ist Aufgabe des 
Programmierers . Weiterhin werden zusat^^liche Ressourcen fur 

25 die Implementierung benotigt. 

Im Folgenden wird ein einf aches Verf ahren beschrieben^ das 
diese Aufgabe I6st. 

Obertragung l:n 

.\ 30 Dieser Fall ist trivial: Der Sender schreibt die Daten auf 

den Bus. Die Daten liegen so lange stabil am Bus an, bis das 
ACK. als Quittierung von alien Empf angern eingetrof fen ist 
(die Daten ,,stehen^^). RDY wird gepulst, d.h. liegt genau fiir 
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einen Takt an, damit die Daten nicht f alschlicherweise mehr- 
fach gelesen werden. Sofern das RDY implementierungsabhangig * 
Multiplexer und/oder* Tore und/oder weitere geeignete Obertra- 
gungselemente ansteuert, die den Datentransfer steuern, wird 
5 diese Ansteuerung far den Zeitraum der Datentibertragung ge- 
speichert (RdyHold) . Dies bewirkt dass die Stellung der Tore 
und/oder Multiplexer und/oder weitere geeignete Obertragungs- 
elemente auch nach dem RDY-Puls gtiltig bleibt und damit wei- 
terhin giiltige Daten auf dem Bus anliegen. 

10 Sobald ein Empf anger die Daten ubernommen hat, quittiert er 
mittels eines ACK (vgl. PACT02) . Es soil nochmals erwahnt 
werden, dass die korrekten Daten bis zur Abnahme durch den 
Oder die Empf anger auf dem Bus anliegen. ACK wird vorzugswei- 
se ebenfalls als Puis ubertragen. Durchlauft ein ACK einen 

15 Multiplexer und/oder Tor und/oder ein weiteres geeignetes 

Obertragungselement, in welchen das RDY zuvor zur Speicherung 
der Ansteuerung diente (s. RdyHold), wird diese Ansteuerung 
nunmehr gel6scht. 

Zur Obertragung von l:n ist es sinnvoll das das ACK so lange 
20 zu halten, d.h. kein gepulstes ACK zu verwenden, bis ein neu- 
es RDY eintrifft, d.h.' das ACK „steht^^ ebenfalls. An jedem 
Buskhoten, welcher eine Verzweigung zu mehreren Empfangern 
darstellt, werden die eintref f enden ACKs miteinander verundet 
(AND) . Da die ACKs ,,stehen^^ ergibt sigh letzendlich ein „ste- 
25 hendes^^ ACK beim Sender, das die ACKs aller Empf anger repra- 
sentiert. Um die. Laufzeit der ACK-Kette durch die UND-Gatter 
mSglichst gering zu halten, wird empfohlen eine baumfOannige 
?usstruktur zu wahlen, bzw. wahrend des Routings des abzuar- 
beitenden Programmes- zu erzeugen. 
30 Stehende ACKs konnen nunmehr implementierungsabhangig zu dem 
Problem fdhren,' dass RDY Signale geACKt werden, fiir die ei- 
gentlich kein ACK vorlag, da ein altes ACK zu lange stand - 
Eine Losung dafiir ist, ACK grundsatzlich zu pulsen und das 
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eintref f ende ACK jedes Zweiges an einer Verzweigung zu spei- 
chern. Erst wenn die ACKs aller Zweige eintrafen wird ein 
ACK-Puls in Richtung Sender weitergeleitet und gleichzeitig 
alle gespeicherten ACKs (AckHold) und ggf. die RdyHold ge- 
5 lescht. 

Figur Ic zeigt die Grundlagen des Verfahrens. Eih Sender 0120 
versendt Dateri uber ein Bussystem 0121 zusammen mit einem RDY 
0122. Mehrere Empfanger (0123, 0124/0125, 0126) erhalten die 
10 Daten und das dazugehorenden RDY (0122) . Jeder Empfanger ge- 
neriert ein ACK (0127, 0128, 0129, 0130), die jeweils uber 
eine geeignete boolsche Logik (0131, 0132, 0133) z.B. eine 
logische UND-Funktion verknupft und an den Sender geleitet 
werden (0134). 

15 

Figur Ic zeigt eine mogliche bevorzugte Ausgestaltung mit 2 
Empfangern {a, b) . Eine Ausgabestufe (0103) versendet Daten 
und das zugeordnete in diesem Beispiel gepulste RDY (0131) . 
RdyHold-Stufen (0130) vor den Ziel-PAEs tibersetzen das gepul- 

20 ste RDY in ein stehendes RDY. Ein stehendes RDY soli in die- 
sem Beispiel den boolschen Wert b'l aufweisen. Die Inhalte 
samtlicher RdyHold-Stuf en werden iiber eine Kette logischer 
ODER-Funictioneri (0133) an 0103 zuruckgef uhrt . Bestatigt eine 
Ziel-PAE die Annahme der Daten, wird l.ediglich durch das ein- 

25 treffende ACK (0134) die jeweils entsprechende RdyHold-Stufe 
zurUckgesetzt.* Die Semantik des zuruckgefiihrten Signals- lau- . . 
tet.somit, b'l; = "irgendisine PAE hat die Daten' nicht abgenoia- 
men". Sobald alle RdyHold-Stuf en zurUckgesetzt sind, gelangt' 
uber die ODER-Kette (0133) die Information b'O = "alle PAEs 

30 haben die Dateri abgenommen" an 0103, was als ACK gewertet 
wird.. Die Ausgange (0132) der RdyHold-Stuf en kSnnen wie be- 
reits beschrieben zur Ansteuerung von Busschaltern mitverwen- 
det werden. 
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Dem letzten Eingang einer ODER-Kette wird ein logischen b'O 
auf geschaltet, damit die Kette ordentlich f unktioniert . 

Obertragung n:' l 

5 Dieser Fall ist vergleichsweise komplex. (Fl) Einerseits miis- 
. sen mehrere Sender aiif einen Empf anger gemultiplext werden, 
(F2) andererseits' muB zumeist auch die zeitliche Reihenfolge 
der Senduhgen eingehalten werden. Nachfolgend werden mehrere 
Verfahren zur Losung der Aufgabe beschrieben. Es soil darauf 

10 hingewie.sen werden, dali kein Verfahren gfundsatzlich zu be- 
vbrzugen ist. Vielmehr ist je nach System und auszuf uhrenden 
Algorithmen das jeweils aus Sicht der Programmierbarkeit, des 
Auf wands und der Kosten am besten Geeignete zu wahlten. 

15 Eine einfache n:l Obertragung kann dadurch realisiert werden; 
dass. jeweils mehrere Datenpfade auf die EingSnge von PAEs ge- 
fuhrt werden. Die PAEs werden als Multiplexerstuf en konfigu- 
riert. Eingehende Trigger steiiern den Multiplexer und selek- 
tieren jeweils einen der Mehrzahl von Datenpfaden. Sofern er- 

20' forderlich, konnen Baumstrukturen aus als' Multiplexer konfi- 
gurieften PAEs aufgeba*u't werden um eine Vielzahl von Daten- 
strome (grosse n) zusammenzufuhren. Das Verfahren erfprdet 
die besondere Aufmerksamkeit des Programmier^rs - um die unter- 
schiedlichen Datenstrome zeitlich kori:<ekt zu sortieren. Ins- 

25 besondere sollten alle .Datenpfade dieselbe Lange und/oder 

VerzSge^ung aiifweisen/ lam die korrekte Reihenfolge der Daten* 
zu gewahrleisteh. 

Leistungsf ahigere Zusammenfiihrungsmethoden werden nachfolgend 
30 beschieben:- 

Da PI zuhachst trivial durch einen beliebigen Arbiter mit 
nachgeschaltetem Multiplexer iQsbar scheint> soil die Oberle- 
gung mit F2 begonnen werden. 

12 
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Die Einhaltung der zeitlichen Reihenfolge ist mit einfachen 
Arbitern nicht moglich. Figur 2 zeigt ein erstes mogliches 
Iiuplementierungbeispiel . Ein FIFO (0206) wird verwendet, urn 
5 die zeitliche Reihenfolgen von Ubertragungsanf orderungen auf 
ein Bussystem (0208) korrekt abzulegen und abzuarbeiten. 
Hierzu wird jedem Sender (0201^ 0202, 0203, 0204) eine ein- 
deutige Ninnmer zugeordnet, die seine Adresse darstellt. Jeder 
Sender fordert eine Dateniibertragung auf das Bussystem 0208 

10 an, indem er seine Adresse auf einem Bus (02()9, 0210, 0211, 
0212) anzeigt. Die jeweiligen Adressen werden uber einen Mul- 
tiplexer (0205) in einem FIFO (0206) entsprechend der Reihen- 
folge der Sendeanf orderungen gespeichert. Das FIFO wird 
schrittweise abgearbeitet und. die Adresse des jeweiligen FI- 

15 FO-Eintrages wird auf einem weiteren Bus (0207) angezeigt. 
Dieser Bus adressiert die Sender und. der Sender mit der ent- 
sprechenden passenden Adresse erhait den Zugriff auf den Bus 
0208. Fiir. ein derartiges Verfahren kSnnen beispielsweise die 
internen Speiclier der VPU Technologie als FIFO verwendet wer- 

20 den (vgl. PACTO'4, PACT13) . 

Bei naherer Betrachtung entsteht jedoch folgendes Problem: 
Sobald mehrer Sender gleichzeitig auf den Bus zugreifen wol- 
len, muB ein Sender .ausgewahlt werden,^ dessen Adresse dann in 

25 das FIFO gespeichert wird. Im nachsten Takt wird dann der 

nachste Sender ausgewahlt, usw.. .Die Auswahl kann durch einen 
Arbiter (0205) erfolgen. Dadurch wird die Gleichzeitigkeit 
aufgelost, was- jedoch zumeist kein Problem darstellt. Fur 
Realtime-Anwendungen konnte ein- priorisierender Arbiter ver- 

30 wendet werden. Das* Verfahren scheitert jedoch an einer einfa- 
chen Oberlegung: * Ziim Z.eitpunkt *t' fordern drei Sender S1,S2 
und S3 den Empf anger E an. Bei t wird- SI, bei t+1 wird S2 und 
bei t+2 wird S3 gespisichert. Bei t+1 fordert jedoch S4 und 
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S5, bei t+2 zusatzlich S6 und wieder SI den Empfanger an. Da 
nun neue Anf orderungen mit Alten uberlappen^^ wird die Abar- 
beitung sehr schnell auBerst komplex und erfordert einen er- 
heblichen zusatzlichen Hardwareauf wand . 
5 Soiuit ist das in Figur 2 beschriebene Verfahren bevorzugt fur 
einfache n:l tJbergange die nach Moglichkeit keine gleichzei- 
tigen Busanf orderungen aufweisen anzuwenden. 

Nach dieser Uberlegung scheint es sinnvoll nicht einen Sender 
10 je Takt zu speichern, sondern die Menge aller Sender, die zu 
einem bestimmten Takt' die tibert'jcagung anfbrdefn. Zum jeweils 
darauf f olgenden Takt wird dann die jeweils neue Menge gespei- 
chert. Sofern mehrere Sender zum gleichen Takt die Ubertra- 
gung anfordern, werden diese bei der Abarbeitung des Spei- 
15 chers arbitriert. 

Das Speichern mehrerer Senderadressen zugleich ist jedoch 
ebenfalls sehr aufwendig. Eine einfache Realisierung wird 
durch folgende Ausfuhrung in. Figur 3 erreicht: 

Ein zusatzlicher Zahler (REQCNT, 0301) zahlt die Zahl 
20 der Takte T. Jeder Sender . (0201, 0202, .0203, 0204), der 

beim Takt t die Obertragung anf ordert, speichert ■ den 

Wert von REQCNT (REQCNT(t)) beim. Takt t' als - seine Adres- 

se. 

• Jeder Sender, der beim Takt t+1 die Obertragung anf or- 
25 dert speichert, den Wert von REQCNT (REQCNT (t+1) ) beim 

Takt t+1 als seine Adresse. 

• • • • 

• Jeder Sender, der' beim Takt t+n die Obertragung arifor- 
• dert speichert, den Wert* von REQCNT (REQCNT (t+n) ) beim 

30 Takt t+n als seine Adresse. 



14 
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Das FIFO (0206) speichert nunmehr die Werte von REQCNT(tb) 
bei einem bestimmten Takt tb- 

Das FIFO zeigt einen gespeicherten Wert von REQCNT als Sende- 
aufforderung auf einem separaten Bus (0207) an. Jeder Sender 
5 vergleicht diesen Wert mit dem von ihm gespeicherten. Sind 
die Werte gleich sendet er die Daten. Besitzen mehrere Sender 
denselben Wert, d.h. wollen. gleichzeitig Daten ubertragen, so 
wird die (Jbertragung jetzt mittels eines geeigneten Arbiters 
(CHNARB, 0302b) arbitriert und mittels eines durch den Arbi- 
10 ter angesteuerten Multiplexers (0302a) auf den Bus geschal- 
tet, Eine beispielsweise m5gliche Ausgestaltung des Arbiters 
wird nachfolgend beschrieben. 

Sobald keine Sender mehr auf einen REQCNT Wert ansprechen, 
d.h. dem Arbiter liegen keine Busanf orderungen zur Arbitrie- 
15 rung mehr vor (0303) , schaltet das FIFO zum nachsten Wert 
weiter. Beinhaltet das FIFO keine gultigen Eintrage mehr 
(empty) , werden die Werte als ungtiltig gekennzeichnet, damit 
keine falschlichen Buszugriffe entstehen. 

In einer bevorzugten Ausgestaltung werden nur die Werte von 
20 REQCNT in den FIFO (0206) gespeichert bei denen eine Busan- 

forderung eines Senders (0201, 0202, 0203, 0204) vorlag. Dazu 

signalisiert jeder Sender* seine Busanf orderung (0310, 0311, 

0312, 0313). Dieser werden logisch verkniipft (0314), z.B. 

durch eine ODER-Funktion . Die entstehexide Sendeanf orderung 
25 aller Sender (0315) auf ein Tor (0316) gefuhrt, das nur die 

Werte von REQCNT an das FIFO (020.6)' leitet, an bei. denen tat- 

sachlich eine Busanf orderung voriag; 

Das beschriebene . Verfahren kann ein einer bevorzugten AusfQh- 

. 30. rung entsprechend Figur 4 wie folgt weiter • optimiert werden: 

Durch REQCNT (0410) wird eine lin.eare Folge von Werten 

(REQCNT (tb) ) generiert, wenn* statt aller TaJcte t nur die Tak- 

te gezahlt werden, in denen eine Busanf orderung eines Senders 

.15 
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(0315) existiert. Durch die von REQCNT generierte nun lucken- 
lose lineare Folge von Werten ist das FIFO durch einen einfa- 
cheri Zahler (SNDCNT,. 0402) ersetzbar^ der ebenfalls linear 
zahlt und dessen Wert (0403) entsprechend 0207 die jeweiligen 
5 Sender f reischaltet • Dabei zahlt SNDCNT weiter sobald kein 
Sender mehr auf den Wert von SNDCNT reagiert. Sobald der Wert 
von REQCNT gleich dem Wert von SNDCNT ist, zahlt SNDCNT nicht 
mehr weiter, da der letzte Wert erreicht ist. 

10 Fur samtliche Implementierungsarten gilt, daJi die maximal er- 
f order liche Breite von REQCNT gleich iog2 (Anzahl_der_Sender) 
ist. Bei Oberschreiten des grofitmoglichen Wertes beginnt 
REQCNT und SNDCNT wieder beim minimalen Wiert (fiir gewqhnlich . 
0) . 

15 

Eine Vielzahl von Arbitern sind nach dem Stand der Technik 
als CHNARB einsetzbar. Je nach Anwendung eignen sich. besser 
priorisierte oder unpriorisierte Arbiter, wobei priorisierte 

20 den Vorteil bieten, daB sie bei Realtime-Auf gaben bestimmte 
Tasks bevorzugen kohnen. 
. Im folgenden wird ein "serieller Arbiter beschrieben, • der in 
der VPU-Technologie besonders einfach und resourcensparend 
implement ierbar ist. Zudem bietet der .Arbiter den Vorteil 

25 priorisierend zu arbeiten, wodurch die bevorzugte Bearbeitung 
bestimmter Ubertragungen ermoglicht wird. 

Zunachst wird ein mSglicher Grundaufbau eines Bussystems in 
Figur 5 beschrieben. Baust.eine der Gattung VPO besitzen ein 
3b Netzwerk aus paxallelen Dateh-Bussystemen . (0502) , wobei jede 
PAE zur Datentibertragung mindestens AnschluB an einen Daten- 
bus besitzt. Fur gewohnlich ist ein Netzwerk aus mehreren 
gleichwertigen paraJ.lelen Datenbussen (0502) aufgebaut, wobei 
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je ein Datenbus fdr eine Datentibertragung konfiguriert sein 
kann. Die verbleibenden Datenbus se konnen fur andere Daten- 
ubertragungen zur freien Verfiigung stehen. 

5 Es soli weiterhin erwahnt werden, dali die Datenbusse segmen- 
tierbar sein konnen, d.h. durch Konf iguration (0521) kann ein 
Bussegment (0502) uber Tore (G) auf das benachbarte Busseg- 
ment (0522) durchgeschaltet werden. Die Tore (G) konnen aus 
Transmission-Gates aufgebaut sein und bevorzugt Signalver- 

10 starker und/oder Register aufweisen. 

Eine PAE (0501) greift vorzugsweise uber Multiplexer • (0503) 

Oder eine vergleichbare Schaltung Daten von einem der Busse 
(0502) ab. Die Freischaltung der Multiplexeranordung ist kon- 
15 f igur ierbar (0504)- 

Bevorzugt werden die von einer PAE. (0510) generierten Daten 
(Ergebnisse) uber eine ahnliche unabhangig konf igur ierbare - 
(0505) Multiplexer-Schaltung auf einen Bus (0502) aufgeschal- 

tet . 

20 Die in Figur 5 beschriebene Schaltung wird mit Busknoten be- 
zeichnet. 

Ein einfacher Arbiter ftir einen Busknoten kann folgendeima- 
ssen, wie in Figur 6 dargestellt, implement iert sein: 

,*\ 

25 Durch zwei AND-Gatter (0601, 0602) kann das Grundelement 0610 
eines einf achen seriellen Arbiters aufgebaut werden .Figur 6a-. 
Das Grundelement besitzt einen Eingang (RDY, 0603) durch den 
eiri Eingangsbus anzeigt^ d'ass* er Daten tibertragt und eine 
Freischaltung auf den Empf angerbus anfordert. Ein ii/eiterer 

30 Eingang (ACTIVATE, 0604) der in diesem Beispiel . durch einen 
• logrschen 1-Pegel anzeigt, dafi keines der vorhergehenden 
Grundelemente aktuell den Bus arbitriert hat und soiriit eine 
Arbitrierung* durch dieses Grundelement zuiassig ist-- ■ Der Aus- 
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gang RDY_OUT (0605) zeigt beispielsweise einem nachgeschalte- 
ten Busknoten an, daS das Grundelement den Buszugriff frei- 
schaltet (wenn eine Busanf orderung (RDY) besteht) und ACTIVA- 
TE_OUT (0606) zeigt an^ dafi das Grundelement aktuell keine 
5 Freischaltung (mehr) durchftihrt, da keine Busanf orderung 
(RDY) (mehr) besteht und/oder keine vorherige Arbiterstufe 
den Empfangerbus (ACTIVE) belegt hat. 

Durch die serielle Verkettung entsprechend Figur 6b von ACTI- 
10 VATE und ACTIVATE_OUT uber die Grundelement e 0610 entsteht 
ein serieller priorisierender Arbiter, "wobei das erste Grun- 
delement die hochste Prioritat besitzt und dessen ACTIVATE 
Eingang iimner aktiviert ist, 

15 Durch das bereits beschriebene Protokoll ist sichergestellt, 
dali innerhalb desselben SNDCNT-Wertes jede PAE nur eine Da- 
tenubertragung durchfiihrt/ da eine nachfolgende Datenubertra- 
gung einen anderen SDNCNT-Wert besitzen wtirde. Diese Bedin- 
gung ist fur eine storungsf reie Funktion der seriellen Arbi- 

20 ters erf orderlich, da damit die fUr die Priorisierung notwen 
dige Abarbeitungsreihenf olge der Freischaltiingsanforderungen 
(RDY) gewahrleistet wird-. Mit anderen Worten, kann eine Frei 
gabeanf orderung (RDY) nicht wahrend einer Arbitrierung nach- 
traglich an Grundelement en auftreten, ,^die bereits durch ACTI 

25 VATE_OUT anzeigen^r daJ5 sie keine Freischaltung eines Buszu-- 
griffs ermoglichen, 

iiokalxtali und Laufzeit: 

30 Grundsatzlich ist das Verfahren tiber lange Strecken hinweg 

■ einsetzbar-. Ab einer von der Systemf requehz abhangigen Lange 

ist die Obertragung der Daten und Ausftihrung des Protokolls 

nicht mehr in einem Takt moglich. 

18 
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Eine Losung ist die Datenpfade exakt gleich lang auszulegen 
und die Zusammenf uhrung an genau einer Stella durchzuf iihren. 
Damit sind samtliche Steuersignale fur das Protokoll lokal,. 
wodurch eine Erhohung der Systemf requenz moglich wird, Zum 
5 Ausbalancieren der Datenpfade bieten sich FIFO-Stufen an, die 
als Verzogerungsstufen (delayline) mit konf igurierbarer Ver- 
zogerund arbeiten, die nachfolgend genauer beschrieben wer- 
den. 

Eine weitaus optimalere Losung, bei der auch Datenpfade baum- 
10 f5rmig zusammengef tihrt werden kSnnen, ist wie folgt aufbau- 
' bar: 

Abgewandeltes Protokoll, Timestaitip 

Vorbedingung ist, dali ein Datenpfad in mehrere Zweige aufge- 
15 trennt und spater wieder zusammengef iihrt wird. Dies geschieht 
gewohnlicherweise bei Verzweigungen wie bei den Programmier- 
konstrukten: „IF^^ odfer „CASE'^ . In Figur 7a ist ein CASE- 
ahnliches Konstrukt beispielhaft dargestellt. 
Spatestens der letzten PAE vor einer Verzweigung (0701) wird 
20 ein REQCNT (0702) zugeordnet, der jedem Datenwort einen Wert 
(Timestamp) zuweist, der im weiteren immer zusammen mit dem . 
Datenwdrt ubertragen wird. . REGCNT zahlt linear mit jedem Da- 
tenwort weiter, sodass "durch einen eindeutigen Wert die Posi- 
tion eines Datenwortes innerhalb eine^x Datenstroms bestimmbar 
25 ist- Die. Datenworte verzweigen sich nachfolgend in mehrere 

unterschiedliche Datenpfade (0703, 0704, 0705).. Mit jedem Da- 
tenwort wird der ihm zugeordnet eh Wert (Timestamp) durch die 
Datenpfade geleitet. 

Vor der/den PAE (0708) die den zusammengef uhrten Datenpfad 
. 30 weiterverarbeiten, softiert ein Multiplexer (0707) die Daten- 
worte wieder in die- richtige Reihenfolge, Dazu ist dem Multi- 
plexer ein linear zahlender SNDCNT (0706) zugeordnet. Der 
Wert (Timestamp) der jedem Datenwort zugewiesen wurde, wird 



wo 02/071249 



PCT/EP02/02403 



itiit dem Wert von SNDCNT verglichen. Das jeweils passende Da- 
tenwort wird durch den Multiplexer selektiert. PaBt zu einem 
.bestiramten Zeitpunkt kein Datenwort, wird keine Selektion 
durchgef tihrt . SNDCNT zahlt nur dann waiter^ wenn ein passen- 

5 des Datenwort selektiert wurde. 

Urn eine moglichst hohe Taktfrequenz zu erreichen ist dabei 
die Zusammenfahrung der Datenpfade sehr lokal durchzufiihren. 
Damit warden die Leitungslangen minimiert und die damit ver- 
bundenen Laufzeiten gering gehalten. 

10 Gegebenenfalls sind die Langen der Datenpfade durch Register- 
stufen (Pipelines) auszugleichen/ bis samtliche Datenpfade an 
einem gemeinsamen Punkt zusammengef iihrt warden konnen. Dabei 
sollte darauf geachtat warden,- dali die Langen der Pipelines 
in etwa gleich sind, urn keine allzu groJien Zeitverschiebungen 

15 zwischen den Datenwo'rten zu erhalten. 



Verwendunq der Timestamp ziom Multiplexen 

Der Ausgang einer PAE (PAE-S) wird an mehrere PAE (PAE-E) 
20 weitergeleitet* Nur eine der PAEs soil die Daten je Taktzy- 
klus verarbeiten. Die PAE-E haben eine jeweils unterschiedli- 
che- fest fconf igurierte Adresse, die jeweils mit dem 
TimeStamp-Bus verglichen wird. Die PAE-S selektiert die emp- 
fangende PAE dadurch/ daJi sie die AdresSse der empfangenden 
25 PAE auf den TimeStamp Bus ausgibt. Dadurch wird die PAE 
adressiertr . fur die die Daten jeweils bestimmt ist. 

Spekula-blve Aasfiihrung tind Task- Switch 

. 30 Von klassischen Mikroprozessoren. ist das Problem der spekula- 
tiven Ausfuhrung* bekanht. Dieses tritt auf,- wenn die Verar- 
beitung von Daten von einem Ergebnis" der vorhexge'henden Da- 
tenverarbeitung abhangig ist; aber jedoch mit der Verarbei- 
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tung der abhangigen Daten aus Perf ormance-erunden jedoch 
schon vorab - ohne daii das erf orderliche Ergebnis vorliegt - 
begonnen wird. 1st das Ergebnis ein anderes als vorab ange- 
noinmen, mufi die Verarbeitung der auf fehlerhaften Annahmen 
5 basierenden Daten neu durchgefiihrt werden (Fehlspekulation) . 
Generell kann dies auch in VPUs auftreten. 

Durch Umsortierung und ahnliche Verfahren kann dieses Problem 
minimiert werden^ wobei jedoch dessen Auftreten niemals aus- 
geschlossen werden kann. 

10 

Ein ahnliches Problem liegt dann vor, wenn durch eine, der 
Datenverarbeitung in einerhalb des PAs ubergeordnete^ Einheit 
(z.B, der Task-Scheduler eines Betriebssystem, Echtzeitanf or- 
derung, usw.) die Datenverarbeitung abbricht, bevor diese 
15 vollstandig ausgefiihrt wurde. In diesem Fall muB der Zustand 
der Pipeline derart gesichert werden, daB die Datenverarbei- 
tung wieder nach der Stelle der Operanden beginnt, die zur 
Berechnung des letzen fertigen Ergebnisses gefiihrt haben. 

20 Innerhalb einer Pipeline treten zwei relevante Zustande auf: 
■RD Am Beginn einer Pipeline wird angezeigt/ daB neue Daten 
angenoramen oder angefordert werden. 

DONE Am Ende einer Pipeline wird die korrekte Verarbeitung 
von Daten angezeigt , • bei dehen keine Rehlspekulation auftrat. 
25 Weiterhin kann der Zustand .MISS_PREDICT verwendet werden, der 
ahzeigt, daB eine Fehlspekulation auftrat. Hilf sweise kann 
dieser Zustand auch durch eine Negierung des Zustandes DONE 
zu geeignetem Zeitpunkt generiert werden. 

30 

Spezielle. FIFOs 

Axis PACT04 und PACT13 sind. Verfahren bekannt, bei welchen Da- 
ten in Speichern gehalten werden und aus diesen zur Verarbei- 
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tung ausgelesen werden^. bzw- Ergebnisse in^diese abgelegt 
werden. Dazu konnen mehrere unabhangige Speicher verwendet 
werden. Die Speicher konnen in unterschiedlichen Betriebsar- 
ten arbeiten, insbesondere kann ein wahlfreier Zugriff , ein 

5 Stack- Oder FIFO-Betriebsmodus verwendet werden. 

Daten werden in VPUs fur gewohnlich linear verarbeitet, so- 
dass der FIFO-Betriebsmodus haufig bevorzugt zum Einsatz 
koirant, Es soil beispielhaf t eine besondere Erweiterung. der 
Speicher ftir den FIFO Betriebsmodus vorgestellt werden,. der 

10 Spekulation direkt unterstutzt und im Fall einer Fehlspekula- 
tion die wiederholte" Verarbeitung der f ehlspekulierten Daten • 
ermoglicht. Desweiteren unterstutzt der FIFO Taskswitches zu 
beliebigen Zeitpunkten . 

15 Zunachst wird der erweiterte FIFO Betriebsmodi am Beispiel 
eines Speichers ausgefiihrt^ auf den im Rahmen einer bestimm- 
ten Datenverarbeitung lesend (Leseseite) zugegriffen wird. 
Der beispielhaf te FIFO ist in Figur 8 dargestellt. 
Der Aufbau der Schreibschaltung entspricht mit einem gewohn- 

20 .lichen Schreibzeiger (WR^PTR, 0801) dabei dem Stand der Tech- 
nik, der sich mit jedeia Schreibzugrif f (0810) weiterbewegt . 
.Die Leseschaltung besitzt zTb. den ublichen Zahler (RD_PTRv 
0802), der entsprechend eines Lesesignals (0811) .jedes gele-- 
sene Wort zahlt und entsprechend die Leseadresse des Spei- 

25 chers (0803) modifiziert. Neu gegenuber dem Stand der Technik 
ist eine zusatzliche Schaltung DONE_PTR (0804), die nicht die 
ausgelesenen Daten dokumentiert,. sondern die ausgelesenen und 
korrekt verarbeiteten, mit anderen Worten also nur die Daten 
bei denen kein Fehler auftrat und- deren Ergebnis am Ende der 

30 . Berechnung- ausgegeben und das korrekte Berechnungsende ein 
Signal (0812) angezeigt wurde. MOgliche Schaltungen werden 
nachfolgend beschrieben. 

22 
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Das FULL-Flag (0805) (nach den Stand der Technik) , das an- 
zeigt^ dali der FIFO voll ist und keine weiteren Daten mehr 
gespeichert werden konnen, wird nunmehr durch einen Vergleich 
(0806) von DONE_PTR mit WR_WTR generiert- Dadurch wird si- 
5 chergestellt, dass Daten, auf die bedingt durch eine mogliche 
Fehlspekulation ein Ruckgriff notwendig wird, nicht Gber- 
schrieben werden. 

Das EMPTY-Flag (0807) wird entsprechend dem ublichen Aufbau 
durch Vergleich (0808) des RD_PRT itiit dem WR__PTR generiert . 
10 Trat eine Fehlspekulation (MISS_PREDICT, 0809) auf, wird der 
Lesezeiger mit dem Wert DONE_PTR + 1 geladen. Damit wird die 
Datenverarbeitung wieder bei dem Wert begonnen, der eine 
Fehlspekulation ausloste. 

Zwei mogliche Ausgestaltungen des DONE_PTR sollen beispiel- 
15 haft genauers ausgefilhrt werden: 

a) Implement ierung durch einen zahler 

DONE_PTR ist als Zahler implement iert, der bei einem Reset 
der Schaitung oder zu Beginn einer Datenverarbeitung gleich 
dem RD_PTR gesetzt wird. Durch ein eingehendes Signal (DONE) 
20 wird angezeigt, dafi die Daten erfolgreich, d.h. ohne Fehlspe- 
kulation verarbeitet w'urden. Dadurch wird DONE_PRT derart mo- 
difiziert, daJi er auf das nachste' sich in Verarbeitung befin- 
dende Datenwort zeigti 

b) Implementierung durch einen Subtrahierer 

25 Sofern die Lange der datehverarbeitenden Pipeline immer exakt 
bekannt ist und sichergestellt ist, dafi die Lange konstant 
ist" (also keine Verzweigung in unterschiedlich lange Pipeli- 
nes stattfindet) , kann ein Subtrahierer eingesetzt werden.. In 
einem zugeordneten Register wird die Lange der Pipeline vom 

30 AnschluB. des Speichers bis zum Erkennen einer moglichen Fehl- 
spekulation gespeichert. Dadurch muB die Datenverarbeitung 
nach einer Fehlspekulation bei dem Datenwort wieder aufge- 
setzt werden, das durch die Differenz berechnet werden kann. 
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Auf der Schreibseite, um das Ergebnis der Datenverarbeitung 
einer Konf iguration zu sichern^ ist ein entsprechend ausge- 
stalteter Speicher erf orderlich, wobei die Funktion des DO- 
5 NE_PRT fiir den Schreibzeiger implementiert ist^ um bereits 

(f ehl-)berechnete Ergebnisse bei einem erneuten Durchlauf der 
Datenverarbeitung wieder zu uberschreiben. Mit andereii Worten 
ist die .Funktion des Schreib-/Lesezeigers entsprechend der in 
der Zeichnung geklammerten Adressen vertauscht. 

10 

Wird die" Verarbeitung der Daten von einer anderen Quelle uri- 
terbrochen (z.B. Taskswitch eines Betriebssystems) ist es 
hinreichend den DONE_PTR zu sichern und die Datenverarbeitung 
zu einem spateren Zeitpunkt bei DONE_PTR + 1 wieder aufzuset- 
15 zen. 

FIFOs fiix Xnpu'b/Ou'bptit:-S'bufen, z.B. 0101,. 0103 

Zum Ausbalancieren von Datenpfaden und/oder ZustSnden unter- 
20 . schiedlicher Kanten eines Graphen, bzw. unterschiedlicher 
Zweige- der • Datenverarbeitung (Trigger, vgl. PACT08, PACT13) 
ist es sinnvoll konf iguriefbare FIFOs an den Ausgangen oder 
Eingangen der PAEs einzusetzen. Die FIFOs besitzen einstell- 
bare Latenzzeiten, sodass die Verzogerung unterschiedlicher 
25 Kanten/ Zweige, also die Laufzeit von Daten iiber unterschied- 
liche .aber zumeist parallele Datenpfade, aufeinander abge- 
stimmt werden kahn. 

Da es innerhalb einer VPU zum Anhalten einer Pipeline auf- 
grund -ausstehender Daten oder eines ausstehenden Triggers 
. 30 komrtien kann,' sind die FIFOs ebenfalls zum Ausgleichen derar- 
tiger Verzogerungen sinnvoll. Die nachfolgend beschriebenen 
FIFOs 15s en beide Auf gab en: 

24 
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Eine FIFO-Stuf e kann beispielsweise wie in„ Figur 9 darge- 
stellt folgendermassen aufgebaut sein: Einem Register (0901) 
ist ein Multiplexer (0902) nachgeschaltet . Das Register spei- 
chert die Daten (0903) und auch deren korrekte Existenz^ d.h. 

5 das dazugehOrende RDY (0904) . Das Einschreiben in das Regi- 
ster erfolgt genau dann, wenn die benachbarte FIFO-Stuf e^ die 
naher zum Ausgang . (0920) des FIFOs liegt anzeigt, dass sie 
voll ist (0905) und ein RDY (0904) ftir die Daten anliegt. Der 
Multiplexer leitet Eingehende Daten (0903> so lange direkt 

10 auf den Ausgang weiter (0906)^ bis Daten in das Register ge- 
schrieben wurden und die FIFO-Stuf e ' damit selbst voll ist/ 
was der benachbarten FIFO-Stuf e, die naher zum Eingang (0921) 
des FIFOs liegt angezeigt wird (0907) • Die Annahme von Daten 
in einer FIFO-Stuf e wird mit einem Input -Acknowledge (lACK, 

15 0908) bestatigt. Die Abnahme von Daten aus einem FIFO wird 

durch Output -Acknowledge (OACK, 0909) bestatigt. OACK gelangt 
zugleich an all.e FIFO-Stufen und bewirkt das weiterschieben 
der Daten im FIFO um jeweils eine Stufe. 

20 Einzelne FIFO-Stufen kSnnen zum Aufbau beliebig langer FIFOs 
• "kaskadiert werden Figur 9a. Dazu werden alle lACK-Ausgange 
logisch miteinander 'Verknupft , beispielsweise durch "eine 
ODER-Funktion (0910). 

25 Die Funktionsweise wird am Beispiel von Figur 10a, b erlau- 
tert: 

HinzufCLqen eines Daitenwortes 

Ein neues Datenwort wird tiber die Multiplexer der einzelnen 

30" FIFO-Stufen an den Registern vorbeigeleitet . Die erste voile 

FIFO-Stufe (1001) signalisierf der davo-rliegenden Stufe 

(1002) anhand des gespeicherten RDY,. dafi sie keine Daten an- 

nehmen kann. Die davorliegende Stufe (1002) hat kein RDY ge- 
. 25 
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speichert, kennt aber den "Voll"-Zustand der Nachf olgenden 
(1001) . Daher speichert die Stufe die Daten und das RDY 
(1003); und quittiert die Speicherung durch ein ACK an den 

Sender. Der Multiplexer (1004) der FIFO-Stufe schaltet dabei 
5 derart um^ dass er nicht mehr den Datenpfad an die nachf ol- 

gende Stufe weiterleitet, sondern den Inhalt des Registers. 



Entfernen eines Datenwortes 

10 Geht ein ACK (1011) bei der letzten FIFO-Stufe ein, werden 
die Dateri jeder vorhergehenden Stufe an die jeweils Nachf ol- 
gende ubertragen (1010) • Dies geschieht durch Anlegen eines 
globalen Schreibtaktes an jede Stufe. Da samtliche Multiple- 
xer bereits entsprechend der Registerbelegung gestellt sind, 

15 rutschen somit alle Daten im FIFO urn eine Zeile nach unten. 



Entfernen und gleichzeitiqes Hinzufliqen eines Datenwortes 
Liegt der globale Schreibtakt an, wird in der ersten freien 

20 Stufe kein Datenwort gespeichert. Da der Multiplexer dieser 
Stufe die Daten noch an die Nachf olgende weiterleitet, spei- 
chert die erste voile Stufe (1012) die Daten. Deren Daten 
werden wie zuvor beschrieben ira selben Takt von der nachfol- 
genden Stufe gespeichert. Mit andererrb Worten: Neu einzu- 

25 s'chreibenden. Daten rutschen automatisch in die nunmehr erste 
freie FIFO-Stufe • (1012) , dJh. die vormals letzte voile FIFO- 
Stufe, die durch eintref fen von. ACK geleert wurde, nach. 

. . 30 Konf igurierbare Pipeline 

Es kann fiir bestimmte Anwendungen von Vbrteil sein, mittels 
eines Schalters (0930) in den beispielhaft in Figur 9 gezeig- 
ten FIFO-Stufe einzelne Multiplexer des FIFOs derart zu 
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schalten, dafi grundsatzlich das entsprechende Register einge- 
schaltet ist. Damit ist eine feste Latenz- bzw. Verziigerungs- 
zeit bei der Datenubertragung einstellbar iiber den Schalter 
konf igurierbar - 

5 

Zusaxmaenfuhxen von Datenstromen (mergen) 

Zum Zusammenftihren der Datenstrome stehen insgesamt 3 Verfah- 
ren zur Verfiigung, die je nach Anwendung unterschiedlich gut 
10 geeignet sind: 

a) Local Merge 

b) Tree Merge 

c) Memory Merge 

15 

Lokales Zusammenf ahren (Local Merge) 

Die einfach-ste Variante ist der local merge- Dabei werden al- 
le DatenstrOme bevorzugt an einem einzigen Punkt oder ver- 
gleichsweise lokal zusammengefiihrt und gegebenenf alls sofort 
20 wieder auf getrenn.t . Eiri lokaler SNDCNT selektiert iiber einen 
Multiplexer genau das Datenwort, das dessen Timestamp dem 
Wert von SNDCNT eritspricht unddaher aktueil- erwartet wird. 
Zwei Moglichkeiten sollen aiihand der Figuren 7a und 7b nahers 
erlautert werden: 
25 a) Ein zkhler SNDCNT (0706) zahlt bei jedem eintref f enden Da- 
tenpaket weitex'. Je batenpfad ist ein Vergleicher nachge- 
schaltet, der den Zahlerstand .jeweils mit der Timestamp des 
Datenpfades vexgleicht- Stimmen die- Werte aberein^ wird das 
a'ktuelle Datenpaket iiber den Multiplexer an die - nachf olgenden 
30 PAEs weitergeleitet- 

b) Die Losung nach .a) wird derart erweitert, dafi nach d6r 
Auswahl des jeweils aktiven .Datenpfades al's H'erkunftsdaten- 
pf ad diesem beispielsweise mittels einer bevorzugt iiber ein 
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Obersetzungsverf ahren, z.B. eine CT konf igurierbaren Lookup- 
Tabelle (0710) r ein Zieldatenpf ad zugeordnet wird.- Der Her- 
kunftsdatenpfad wird ermittelt indem die mit den Daten ein- 
treffenden Timestamp entsprechend Verfahren a) mit einem 
5 SNDCNT (0711) verglichen (0712) werden und der iibereinstim- 
itiende Datenpfad adressiert (0714) und tiber einen Multiplexer 
(0713) selektiert wird. Die Adresse (0714) wird mittels der 
beispielhaf ten Lookup-Tabelle (0710) einer Zieldatenpf ada- 
dresse (0715) zugeordnet die tiber einen Demultiplexer (0716) 

10 den Zielpfad auswahlt. Sofern die beschriebene Struktur in 

Busknoten ahnlich Figur implementiert ist^ kann liber die bei- 
spielhaf te Lookup-Tabelle (0710) die Datenverbindung auch der 
dem Busknoten zugeordnete PAE (0718) aufgebaut werden, bei- 
spielsweise tiber eine Tor-Funktion (Transmission-Gates) 

15 (0717) ziom Eingang der PAE. 

Ein besonders. leistungsf ahiges Schaltungsbeispiel ist in Fi- 
gur 7c dargestellt. Eine PAE (0720) besitzt 3 Dateneingange 
(A^B^C), wie baispielsweise in der XPU128ES. Bussysteme 

20 (0733) kSnnen konf igurierbare und/oder multiplexbar und je 
Taktzyklus selektierbar auf die- Dateneingange auf ges'chaltet 
werden. Jedes Bussystem ubertragt Daten, Handshakes und die 
zugeordnete Timestamp (0721) . Die Eingange A und C der PAE. 
(0720) werden dazu verwendet, die Timestamp der Datenkanale 

25 an die PAE weiterzuleiten (0722, 0723) . Die einzelnen 

Timestamp kannen beispiielsweise. durch das nachfolgend be- 
schriebene SIMD-Bus system gebundelt werden.. Die' gebtlridelten 
Timestamp werden in. der PAE wieder aufgetrennt und jede 
Timestamp je einzeln (0725, 0726, 0727.) mit einem in der PAE 
. 30 • realisierten/konfigurierten SNDCNT (0724) verglichen (0728) . 
Die Ergebnisse der- Vergleiche werdeii verwendet um die Ei'n- 
gangsmultiplexer (0.730) der art anzusteuern, dass das Bussy- 
stem mit der korrekten Timestamp auf eine Sammelschiene 

28 
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(0731) durchgeschaltet wird. Die S amine Ischiene ist bevorzugt 
mit dem Eingang B verbunden, um eine Datenweiterleitung an 
die PAE entsprechend 0717^ 0718 zu ermoglichen. Die Ausgangs- 
demultiplexer (0732) zur Weiterleitung der Daten auf unter- 
5 schiedliche Bussysteme warden ebenfalls durch die Ergebnisse 
angesteuert^ wobei bevorzugt eine Umordnung der Ergebnisse 
durch eine flexible Obersetzung, z.B. durch eine Lookup- 
Tabelle (0729) stattfindet, sodass den Ergebnissen frei Ober 
Demultiplexer- (0732) zu selektierende Bussysteme zugeordnet 
10 werden konnen. 

Baumartiges Zusammenf ugen CTree Merge) 

In vielen Applikationen ist es wunschenswert an mehreren 
Punkten Telle eines Datenstromes zu mergen. Es ergibt sich 

15 daraus eine Baum ahnliche Struktur. Dabei entsteht das Pro- 
blem, dafi keine zentrale Entscheidung uber die Selektion ei- 
. nes Datenwortes gefailt werden kann, sondern daJB die Ent- 
scheidung uber mehrere Knoten verteilt ist, Daher ist erf or- 
derlich an alle Knoten den jeweiligen Wert von SNDCNT zu 

20 tibertragen. Bei hohen Taktf requenzen ist das jedoch nur mit 
einer Latenzzeit, die beispielsweise durch mehrere Register- 
stufen wahrend der Obertragung. entsteht, moglich. Damit bie- 
tet diese Losung zunachst keine sinnvolle Perf onuance • 
Ein Verfahren zum Verbessern der Perfo^rmaince ist, dafi lokale 

25 Entscheidungen in jedem Knoten unabhangig vom Wert von SNDCNT 
zugelassen werden. Ein beispielsweise einfacher Ansatz ist, 
das Datenwort mit der • j.eweils ■ kleinsten Timestamp an einem 
Knoten zu selektierea. Dieser Ansatz wird jedoch problema- 
tisch, wenn.ein batenpfad an einem Knoten zu einem Takt kein 
. 30 Datenwort liefert. Nun kahn nicht entschieden werden, welcher 
Datenpfad der zu bevorzugende ist- 

Der nachfolgende Algorithmus verbessert dieses Verhalten: 

29 
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a) Jeder Knoten erhalt einen eigenstandigen SNDCNT Zahler 
SNDCNTk. 

b) Jeder Knoten soli n Eingangsdatenpf ade (Po-.Pn) besit- 
zen. 

5 c) Jeder Knoten kann mehrere Ausgangsdatenpfade besitzen, 

die mittels eines Obersetzungsverf ahrens, z.B. einer 
durch eine Ubergeordnete Konf igurationseinheit CT konfi- 
gurierbare Lookup-Tabelle^ abhangig vom Eingangsdaten- 
pf ad selektiert werden. 

10 d) Der Root-Knoten besitzt den Haupt-SNDCNT auf den alle 

SNDCNTk gegebenenf alls synchronisiert werdem.- 

Zur Selektion des korrekten Datenpfades wird folgender Algo- 
rithmus angewendet : 
15 I.Sofern Daten an alien Pn Eingangsdatenpf aden anstehen gilt: 

a) Auswahl des Datenpfades P<ts) n^t der klelnsten Timestaitip 
Ts . 

b) Zuweisung von K := Ts+1; SNDCNT > Ts+1 gilt SNDCNTk : = 
SNDCNT . 

20 

II. Wenn nicht an alien Pn Eingangsdatenpf aden Daten anstehen 
gilt: 

a) Auswahl eines Datenpfades nur> wenn die Times tamp Ts == 
SNDCNTk 

25 b) SNDCNTk SNDCNT + 1 

c) SNDCNT := SNDCNT + 1 

III. Wird in einem Takt keine Zuweisung durchgefahrt- gilt: 
a) SNDCNTk := SNDCNT 

30 

IV. Der Root-Knot en besitzt den SNDCNT,* der bei jeder Selek- 
tion eines gttltigen Datenwortes weiterzahlt und die korrekte 

• Reihenfolge der Datenworter bei der Root des Trees sicher- 

30 . 
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stellt. Alle andern Knoten warden auf Wert... von SNDCNT syn- 
chronisiert, sofern erforderlich (siehe 1-3) . Dabei tritt ei- 
ne Latenzzeit auf, die der Anzahl der Register entspricht, 
die zu Oberbrtickung der Strecke von SNDCNT nach SNDCNTr ein- 
5 gefiigt werden miissen. 

Figur 11 zeigt einen moglichen Bauiti, der beispielsweise auf 
PAEs ahnlich denen der VPU XPai28ES aufgebaut sind. Ein Root- 
Knoten (1101) besitzt einen integrierten SNDCNT, dessen Wert 

10 am Ausgang H (1102) zur Verftigung steht. Die Datenworte an 
den Eingange A und C werden entsprechend des beschriebenen 
Verfahrens selektiert und jeweils das Datenwort mit der kor- 
rekten Reihenfolge auf den Ausgang L gefiihrt.. 
Die PAEs der nachsten Hierarchiestuf e (1103) und auf jeder 

15 weiteren hoheren Hierarchiestuf e (1104, 1105) arbeiten ent- 
sprechend, weisen jedoch folgenden Onterschied auf: Der inte- 
grierte SNDCNTr ist lokal, der jeweilige Wert wird nicht wei- 
tergeleitet. SNDCNTr wird entsprechend des beschriebenen Ver- 
fahrens mit SNDCNT, dessen Wert am Eingang B anliegt synchro- 

20] nisiert. 

SNDCNT kann-zwischen samtlichen Knoten, insbesondere aber 
auch zwischen den einzelnen Hierarchiestuf en, beispielsweise' 
liber Register gepipelinet sein. 

25 

Zusaimienfagen mittels Speicher (Memory Merge) 

Bei diesem Verfahren werden* zum Zusammenftihren von Datenstro- 
men Speicher verwendet. Dabei wird jedeirt Wert der Tim^estamp 
ein Speicherplatz zugewiesen.- Die Daten- werden dann entspre- 
30 chend des We'rtes ihrer Timestamp in dem Speicher abgelegt; 
' mit anderen Worten dient die Timestamp als Adresse der Spei- 
cherstelle fur die zugeordneten Daten. Dadurch entsteht ein 
patenraum der linear zu den Timestamp ist, d.h. entsprechend 



wo 02/071249 



PCT/EP02/02403 



der Timestamp sortiert ist. Erst wenn der Datenraum vollstan- 
dig ist, d.h. alle Daten gespeichert warden, wird der Spei- 
cher zur weiteren Verarbeitung freigegeben, bzw. linear aus- 
gelesen. Dies ist kann beispielsweise einfach festgestellt 
5 warden, indem gezahlt wird, wieviele Daten in einen Speicher 
geschrieben wurden. Wurden soviele Daten geschrieben wie der 
Speicher Dateneintrage besitzt ist er voll- 

Bei der. Durchfiihrung des Grundprinzipes tritt folgendes Pro- 

10 blem auf: Bevor der Speicher luckenlos gefiillt ist, kann ein 
(Jberlauf der Timestamp stattfinden. Ein Oberlauf ist folgen-- 
dermalien definiert: Eine Timestamp ist eine Zahl aus einem 
endlichen linearen Zahlenraum (TSR) . Die Vergabe von 
Timestamps erfolgt streng monoton, wodurch innerhalb des Zah- 

15 lenraumes TSR jede vergebene Timestamp eindeutig ist. Wird 

bei der Vergabe einer Tiiriestamp das Ende des Zahlenraumes er- 
reicht wird die Vergabe beim Beginn von TSR fortgesetzt; da- 
durch entsteht eine Unstetigkeitsstelle. Die nunmehr vergebe- 
nen Timestamp sind nicht mehr eindeutig gegeniiber .den vorher- 

20 gehenden, Es ist grundsatzlich sicherzustellen,. dafi diese Un- 
stetigkeitsstellen bei" der Verarbeitung berilcksichtigt wer- 
den. Der Zahlenraum (TSR) ist daher so groB zu wahien, ' daB im 
ungtinstigsten Fall keine Doppeldeutigkeit dadurch entsteht, 
dafi zwei identische Timestamp innerhalb der Datenverarbeitung 

25 auftreten. Mit .anderen Wprten muii TSR so grofi sein, daB im 

ungtinstigsten Fall, der innerhalb der nachf olgendeh Verarbei- 
tungspipelines und/oder Speicher auftreten kann, keine iden- 
tischen Timestamp innerhalb der Verarbeitungspipelines 
und/oder Speicher existieren. 

30 Tritt nunmehr ein Oberlauf der Timestamp aiif , mtissen die 

Speicher in jedem Fall darauf reagiereri konnen. Es muss davon 
ausgegangen werden, daB nach einem Oberlauf teilTrreise Daten 
mit der Timestamp vor dem Oberlauf („alte Daten^M und teil- 
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weise Daten mit der Timestamp nach dem Uberlauf („neue Da- 
ten^M in den Speichern enthalten sein werden. 

Die neuen Daten kSnnen nicht in die Speicherstellen der alten 
Daten geschrieben werden, da diese noch nicht ausgelesen wur- 
5 den. Daher sind mehrere (mindestens zwei) unabhSngige Spei- 
cherbiacke vorzusehen, sodaB die alten und neuen Daten ge- 
trennt geschrieben werden kSnnen. 

Zur Verwaltung der SpeicherblQcke kSnnen beliebige Verfahren 
eingesetzt werden. Zwei MSglichkeiten werden nahers ausge- 
10 f uhrt : 

a) Sofern immer sichergestellt ist, dafi die alteri ' Daten 
eines bestimmten Timestaiup-Wertes vor den neuen Daten 
dieses Timestamp-Wertes eintreffen, wird getestet, ob 
die Speicherstelle fur die alten Daten noch frei ist. 

15 1st dies der Fall liegen alte Daten vor und die Spei- 

cherstelle wird beschrieben, wenn nicht liegen neue Da- 
ten an und die Speicherstelle fur die neuen Daten wird 
beschrieben, 

b) Ist nicht sichergestellt, dafi die alten Daten eines be- 
20- stinimten Timestamp-Wertes vor den neuen Daten dieses 

Timestamp-Wertes eintreffen, kann- die Timestamp mit ei- 
her kennung versehen werden, die alte und neue 
Tiraestamps unterscheidet . Diese Kennung kann ein oder 
mehrere Bits breit sein. Bei einer Oberlauf der 
25 Timestamp wird die Kennung linear verandert. Dadurch 

sind noanmehr alte und neue Daten mit eindeutigen 
Timestamps versehen. Ehtsprechend der Kennung werden 
die Daten einem von mehreren Speicherbl5cken zugewie- 
sen. 



30 



Bevorzugt werden daher Kennungen verwendet,. deren maximaler 
numerischer Werte berachtlich kleiner sind als der.maximale 
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numerische Wert der Timestamps . Ein bevorzugtes Verhaltnis 
kann durch folgende Formel angegeben werden: 
Kennungmax < TimeStampmax / 2 

5 

Verwendung von Spexchem zur Par^±-k±on±erting brel-ber Giraplien 

Wie aus PACT13 bekannt ist es erf orderlich, groBe Algorithmen 
zu paritionieren^ d.h, in eine Mehrzahl von Teilalgorithmen 
zu zerteilen, damit dies jeweils auf eine vorgegebene Anord- 

10 nung und Menge von PAEs einer VPU passen. Die. Partitionierung 
ist dabei einerseits perf ormanceef f izient andererseits nattir- 
lich unter Beibehaltung der Korrektheit des ALgorithmus 
durchzuf tihren. Ein wesentlicher Aspekt ist dabei die Verwal- 
tung der Daten und Zustande (Trigger) der jeweiligen Daten- 

15 pfade. Im Folgenden werden Verfahren zur verbesserten und 
vereinf achten Verwaltung vorgestellt. 

In vielen Fallen ist es nicht moglich einen Datenf luBgraphen 
an nur einer Kante zu schneiden (Beispiels siehe Figur 12a) , 
da der Graph beispielsweise zu breit ist, bzw. da zu viele 
Kanten (1201/ 1202, 1203) an der Schnittstelle (1204) vorhan- 
den s ind- 
ole Partitionierung kann erf indungsgemaB derart durchgeftlhrt 
werden, daB entsprechend Figur 12b entlang aller Kanten ge- 
schnitten wird. Die Daten jeder Kante einer ersten Konfigura- 
tion (1213) werden in einen separaten Speicher (1211) ge- 
schrieben-. 

Es soli ausdrucklich angemerkt werden, daB zusainmeh mit.(oder 

.30 ggf. auch . getrennt von) den Daten auch samtliche relevanten 

Statusinf ormationen der Datenverarbeitung Qber die Kanten 

(beispielsweise in Figur 12b) laufen und in die Speicher ge— 

schrieben werden konnen. Die Statusinf ormationen sind in der 
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VPU-Technologie beispielsweise durch Trigger (vgl. PACT08) 
reprasentiert . 

Nach der Rekonf iguration warden die Daten und/oder Statusin- 
5 formationen von einer nachfolgeden Konf iguration (1214) aus 
den Speichern. ausgelesen und durch diese Konf iguration wei- 
terbearbeitet . 

Die Speicher arbeiten als Datenempf anger der ersten Konfigu- 
10 ration (also in einer hauptsachlich beschreibenden Arbeits- 
weise) und als Datensender der nachfolgenden Konf iguration 
(also in einer hauptsachlich auslesenden Arbeit sweise) . Die- 
Speicher (1211) selbst sind Teil/Ressourcen beider Konfigura- 
tionen. 

15 

Zur korrekten Weiterverarbeitung der Daten ist es notwendig 
die ordentliche zeitliche Reihenfolge zu kennen^ in der die 
Daten in die Speicher geschreiben wurden. 

Grundlegend kann dies gewahrleistet werden^ indem die Daten- 
20 strome entweder 

a) beim Einschreiben in einen Speicher sortiert werden 
und/oder 

b) beim Auslesen aus einem Speicher sortiert werden 
und/oder 

25 c) die Sortierreihenf olge mit den Daten gespeichert und der 
nachfolgenden Datenverarbeitung zur Verfugung gestellt wird- 

Dazu werden den Speichern Steuereinheiten zugeordnet^ die so- 
wohl beim Einschreiben der Daten (1210) in die Speicher 
30 (1211) , als auch beim Auslesen der Daten aus- deri- Speichern* 
(1212) fur die Verwaltung der Datenreihenfolgen und Datenab- 
hangigkeiten sorgen. Jenach Ausgestaltung kOnnen unter- 
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schiedliche Verwaltungsarten und entsprechende Steuermecha- 
nismen eingesetzt warden. 

Zwei mogliche entsprechende Verfahren sollen anhand Figur 13 
5 ausfiihrlicher erlautert werden. Die Speicher sind ahnlich des 
Datenverarbeitungsverfahren nach PACT04 einem Array (1310, 
1320) aus PAEs zugeordnet: 

a). In Figur 13a generieren die Speicher ihre Adressen syn- 
chron beispielsweise durch gemeinsame Adressgeneratoren und 

10 unabhangige aber synchrongeschaltete. Mit anderen Worten wird 
die Schreibadresse • (1301) pro Zyklus weitergezahlt,. unabhan- 
gig ob ein Speicher tatsachlich gultige Daten zu speichern 
hat. Damit besitzen eine Mehrzahl von Speichern (1303, 13.04) 
dieselbe Zeitbasis, bzw. Schreib/Leseadresse Ein zusatzli- 

15 ches Flag (VOID, 1302) je Datenspeicherstelle iiu Speicher 

zeigt an^ ob gultige Daten in eine Speicheradresse geschrie- 
ben wurden- Das Flag VOID kann durch das den Daten zugeordne- 
te RDY (1305) generiert werden, entsprechend wird beim Ausle- 
sen eines Speichers das Daten RDY (1306) aus dem Flag VOID 

20 generiert. Fur das Auslesen. der Daten durch' die nachfolgende 
Konf iguration wird entsprechend deiti Einschreiben der Daten 
eine gemeinsame Leseadresse (1307) generiert, die pro Zyklus 
weitergeschaltet wird. 

25 b) Effizienter ist im Beispiel nach Figur 13b ist die Zuord- 
nving einer Timestamp zu jedem Datenwort entsprechend des be- 
reits beschriebenen Verf ahrens . Die Daten (1317) werden mit 
der dazugehorenden Timestamp (1311) in der jeweiligen Spei- 
cherstelle gespeichert. Dadurch entstehen keine Lticken in den 

30 Speichern und diese werden effizienter ausgelastet. Jeder 

• Speicher weist unabhSngige Schreibzeiger (13.13/ 1314) fiir die 
dateneinschreibende Konf iguration und Lesezeiger (.1315^ 1316) 

fur die nachfolgend datenauslesende Konf iguration auf . Ent- 
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sprechend der bekannten Verfahren (beispielsweise entspre— 
chend Figur 7a oder Figur 11) wird beim Auslesen das jeweils 
zeitlich korrekte Datenwort anhand der zugeordneten und mit- 
gespeicherten Timestamp (1312) selektiert. 

5 

Die Sortierung der Daten in die Speicher /aus den Speichern 
kann also nach unterschiedlichen algorithmisch jeweils geeig- 
neten Verfahren erfolgen^ wie beispielsweise durch 
a) Zuweisung eines Speicherplatzes durch die TiitieStamp 
10 b) Einsortieren in den Datenstrom gemSB der TimeStaitip 

c) Speichern je Takt zusammen mit einem VALID-Flag 

d) Speichern der TimeStamp und derer Weitergabe an den nach- 
f olgenden Algorithmus beim Auslesen des Speichers 

15 Applikationsabhangig konnen mehrere (oder alle)- Datenpfade 

auch vor Speichern iiber die erf indungsgemaBen Merge-Verf ahren 
zusammengefuhrt werden. Ob dies durchgefahrt wird hSngt im 
wesentlichen von den zur Verfttgung stehenden Ressourcen ab. 
Stehen zu wenig Speicher zur Verftigung ist eine Zusammenfah- 

20 rung vor den Speichern erforderlich oder wtinschenswert . Ste- 
hen zu wenig PAEs zur Verfugung, werden bevorzugt keine wei- 
teren PAEs ftir eihen ' Merge verwendet. 

25 Erweiterung der Peripherieinterf ace (lO) durch Timestamp 

Nachfolgend wird eine Verfahren beschrieben, urn- 10 Kanalen zu 
Peripheriebausteinen und/oder externen Speichern Timestamps 
zuzuordnen. Die Zuordnung kann unterschiedliche Zwecke erftil- 
len^ beispielsweise um eine korrekte Sortierung von Daten- 
..30 stromen zwischen Sender und Empf anger zu^iilassen und/oder 

Quellen urid/oder Ziele von DatenstrOmen eindeutig zu selek- 
tieren. 
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Die nachfolgenden Ausfuhrungen werden am Beispiel der Inter- 
facezellen aus PACT03 verdeutlicht . PACT03 beschreibt ein 
Verfahren zur Bundelung von VPU internen Bus sen und dem Da- 
tenaustausch zwischen verschiedenen VPUs oder VPUs und Peri- 
5 pherie (10) . 

Ein Nachteil des Verfahrens ist, dali die Datenquelle beim 
Empfanger nicht rtiehr identif izierbar und auch die korrekte 
zeitliche Reihenfolge nicht sichergestellt ist. 
10 Folgende neue Verfahren losen dieses Problem,, es konnen je- 
weils anwendungsspezif isch einige oder mehrere der beschrie- 
.benen Methoden verwendet und ggf • kombiniert' werden: 

a). Indent if ikation der Datenquelle 

15 Figur 14 beschreibt beispielhaft eirie derartige Identif ikati- 
on zwischen Arrays (PAs, 1408) aus rekonf igurierbaren Elemen- 
ten CPAEs) zweier VPUs. (1410, 1420) Ein Arbiter (1401) se- 
lektiert auf einem datensendenden Baustein (VPU, 1410) eine 
der moglichen Datenquellen (1405), urn diese Uber einen Multi- 

20 plexer (1402) auf die 10 zu schalten. Die Adresse der Daten- 
quelle (1403) wird zusammen mit den Daten (1404) an die 10 
gesendet. Der datenempf angende Baustein (VPU, 1411) selek- 
tiert entsprechend der Adresse (1403) der Datenquelle den 
entsprechenden Empfanger (1406) uber ednen Demultiplexer 

25 (1407) . Bevorzugt kann mittels eines Ubersetzungsverf ahrens, 
z.B'. einer Lookup-Tabelle, die beispielsweise durbh eine 
tibergeordnete Konf igurationseinheit (CT) konf igurierbar ist, 
.eine flexible Zuordnung zwischen ubertragerier Adresse (1403) 
uhd Empfanger (1406) ermoglicht werden. 

30 Es soli ausdriicklich darauf hingewiesen werden, dass den Mul- 
tiplexern (1402) vorgeschaltet und/oder den Demultiplexerh 
(1407) nachgeschaltet Interf ace-Baugruppen entsprechend 
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PACT03 und/oder PACT15 zur konf igurierbaren Aufschaltung von 
Bussystemen verwendet warden k5nnen. 

b) Einhaltung der zeitlichen Reihenfolge 
5 bl) Das einfachste Verfahren ist, die Timestaiap an die 10 zu 
senden und die Auswertung dem Empfanger zu tiberlassen, der 
die Timestamp- entgegennimmt . 

b2) In einer anderen Version wird die Timestamp vom Arbiter 
10 dekodiert, der nur den Sender mit der korrekten Timestamp se- 
lektiert und an die 10 sendet- Der Empfanger erhalt die Daten 
in der korrekten Reihenfolge. 

Die Verfahren nach a) und b) sind entsprechend den Anforde- 
15 rungen der jeweiligen Applikation zusammen oder auch einzeln 
anwendbar. 

Weiterhin kann das Verfahren durch die Vergabe und Identifi- 
kation von Kanalnummern erweitert werden. Eine * Kanalnummer 

20 kennzeichnet einen bestimmten Senderbereich. Beispielsweise 
kann eine Kahalnummer aus mehreren Identif ikationen bestehen, 
wie Angabe des Busses- innerhalb eines Bausteines, des Baii- 
steines, der Bausteingruppe . Dadurch ist auch in Anwendungen 
iciit einer grolien Anzahl von PAEs und/oder ,einem Zusammen- 

25 schlufi vieler Bausteine eine einfache Identif izierung gege- 
ben. ' . 

Vofzugsweise werden bei der Verwendung von Kanaln\ammern nicht 
jeweils eirizelne Datenworte Obertragen, spnderh eine- Mehrzahl 
30- von Datenworten werden zu.einem Datenpaket zusammengef afi1: und 
sodann unter Angabe der Kanalniammer iibertragen. Das Zusaramen- 
fassen der einzelnen Datenworte- kann beispielsweise mittels 
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eines geeigneten Speichers erfolgen, wie z.B. in PACT18 
(BURST-FIFO) beschrieben. 

Es soil darauf hingewiesen werden, dass die ubertragenen 
5 Adressen und/oder Timestamp bevorzugt als Kennungen oder Teil 
von Kennungen in Bussystemen nach PACT15 eingesetzt werden 
konnen . 

Vollumfanglich wird das Verfahren nach PACT07 in das Patent 
10 eingegliedert, vrelches durch das beschriebene Identifizie- 
rungsverf ahren erweitert werden kann. Weiterhin sind die Da- 
tenubertragungsverfahren nach PACT18 vollumfanglich einge- 
gliedert, fUr die das beschriebene Verfahren ebenfalls Anwen- 
dung finden kann. 

15 

Aufbau von Seqaenzem 

Durch den Einsatz von TimeStamps oder vergleichbaren Verfah- 
ren wird ein einf acher Aufbau von Sequenzern aus Gruppen von 
20- PAEs ermdglicht. Die Busse und Grundfunktionen der Schaltung 
werden konf iguriert, die Detailfiinktion und Datenadressen 
werden durch einen OpCode zur Laufzeit flexibel eingestellt. 

Mehrere diese Sequenzer lassen sich zugleich inherhalb eines 
25 PA (Arrays aus PAEs) aufbauen und betreiben. 

Die Sequenzer . innerhalb einer VPU sind entsprechend des Algo- 
rithmus aufbaubar, Beispiele wurden in mehreren vollumfang- 
lich eingegliederten Schriften des Erfinders bereits gegeben. 
30 Insbesondere soil auf PACT13 verwiesen warden, worin der Auf- 
bau von Sequenzern aus einer mehrzahl von PAEs beschrieben 
ist, was als beispielhafte Grundlage fur die nachfolgende Be- 
schreibung dient. 
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Im Detail lassen sich zum Beispiel folgenden Ausgestaltungen 
von Sequenzern frei anpassen: 

• Art und Menge der lO/Speicher 

5 • Art und Menge der Interrupts (z-.B. tiber Trigger) 

• Befehlssatz 

• Anzahl und Art von Registern 

Ein einfacher Sequenzer lalit sich beispielsweise aus 
10 1. einer ALU zur Durchfuhrung der arithmetischen und logi- 

schen Funktionen 

2. einem Speicher zur Speicherung der Daten, quasi als Re- 
gistersatz 

3. einem Speicher als CodeQuelle fur das Prograinm (z.B. 
15 normaler Speicher nach PACT22/24/13 und/oder CT nach 

PACT10/PACT13 und/oder speziellen Sequenzern nach 
PACT04) 
aufbauen 

Ggf . wird der Sequenzer via lO-Elemente (PACT03^ PAC.T22/24) 
20 erweitert. Zudem lassen sich weitere PAEs als Datenquellen 
Oder -empf anger anschlielien. 

Je nach eingesetzter CodeQuelle kann das Verfahren nach 
PACTOS zum Einsatz koinmen, das das di3?ekte Setzen von Opcodes 
25 einer PAE tiber Datenbusse^ sowie die Angabe der Datenquel- 
len/-*ziele zulSBt- 
- Die Adressen der Datenquellen/-ziele- lassen sich beispiels- 
weise per TimeStampverfahren ubertragen. Weiterhin • kann der 
Bus zur Obertragung der OpCbdes verwendet werden. 

30 

In einer beispielhaften Imp lementie rung nach Figur 15 besteht 
ein Sequenzer aus einem RAM zur Speicherung des Programmes 

41 



wo 02/071249 



PCT/EP02/02403 



(1501), einer PAE zur Berechnung der Daten^ (ALU) (1502), ei- 
ner PAE zur Berechnung des Prograiranzeigers (1503), einem 
, Speicher als Registersatz (1504) und einer 10 fur externe Ce- 
rate (1505) . 

5 Durch Verdrahtung entstehen zwei Bussysteme, ein Eingangsbus 
zur ALU IBUS (1506) und ein Ausgangsbus von der ALU OBUS 
(1507) . Den Bussen zugeordnet ist jeweils eine 4-bit breite 
Timestamp, die die Quelle IBUS-ADR (1508) bzw. das Ziel OBUS- 
ADR (1509) adressiert. 

10 Von 1504 wird der Progrararazeiger (1510) an 1501 gefuhrt. 1501 
riefert den OpCode (1511) zurack. Der" OpCode wiird in BefetLle 
fur die ALU (1512) und den Programmzeiger (1513), sowie die 
Datenadressen (1508, 1509) auf gespaltet . Zur Aufspaltung des 
Busses konnen die nachfolgend beschriebenen SIMD Verfahren 

15 und Bus sy St erne verwendet werden, 

1502 ist als Akkumul at ormas chine ausgestaltet und unterstutzt 
beispielsweise folgende Funktionen: 

Id <reg> Lade Akkumulator (1520) von Register 

20 add__sub <reg> Addiere/Subtrahiere Register zum Akkumulator 
sl_sr Akkumulator schieben 

rl_rr* Akkumulator rotieren • 

st <reg> Schreibe" Akkvimulator in Register 

Fur die Befehle sind 3-bit notwendig. ,.pin viertes Bit gibt 
25 die Art der Operation an: addieren Oder subtrahieren, rechts- 
oder linksschieben. 

1502 liefert den ALU-Status carry auf Triggerport 0 und zero 
auf Triggerport 1. 

30 

<reg> ist f olgendermaBen kodiert: 
0.,7 Datenregister in 1504 

8 Eingangs register (1521) Programmzeigerberechnung 
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9 lO-Daten 

10 lO-Adressen 

Fur die Adressen werden 4 bits benotigt.. 

5 1503 unterstutzt folgende Oper.ationen iiber den Prograiranzei- 
ger : 

jmp Springe auf Adresse im Eingangsregister (2321) 

jtO Springe auf Adresse im Eingangsregister 

angegeben ist^ wenn TriggerO gesetzt 
10 jtl Springe auf Adresse im Eingangsregister 

angegeb.en ist, wenri Trigger 1 gesetzt 
jt2 Springe auf Adresse- im Eingangsregister 

angegeben ist, wenn Trigger2 gesetzt 
jmpr Springe zu PP plus Adresse im Eingangsregister 

15 Fiir die Befehle sind 3-bit notwendig. Ein viertes Bit gibt 
die Art der Operation an: addieren oder subtrahieren. 

Der Opcode 1511 wird also in 3 Gruppen zu je 4 bit zerlegt: 
(.1508, 1509), 1512, 1513, 1508 und 1509 konnen bei dem gege- 
20 benen Instruktionssatz identisch sein. 1512, 1513 werden bei- 
spielsweise an das C-Register der PAEs gefiihrt (vgl. 
PACT22/24) und innerhalb der PAEs als Befehl dekodiert (vgl. 
PACT08) . 

.•\ 

25 Entsprechend PACT13 und/oder PACTll kann der Sequenzer in ei- 
ne komplexere Struktur eingebaut werden. Beispielsweise sind 
durch <reg> = 11, 12, 13, 14, 15 weitere Datenquellen adres- 
sierbar, die auch von anderen PAEs stammen kSnnen. Ebenfalls 
lassen.sich weitere Da tenempf anger adressieren. Datenquellen 

30 und' -empf anger kohnen beliebig, insbesondere PAEs sein. 

Es soil angemerkt sein, dafl die aufgezeigte Schaltung nur 12- 
bit des Opcodes 1511 benStigt. Bei einer 32-bit Architektur 
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stehen darait 20-bit optional zur Erweiterung der Grundschal- 
tung zur Verfugung. 

Die Multiplexerfunktionen der Busse konnen entsprechend des 
5 beschriebenen TimeStampverf ahrens implement iert werden. Ande- 
re Ausgestaltungen sind ebenfalls moglich^ beispielswiese 
konnten PAEs als Multiplexerstuf en eingesetzt werden. 

10 SJMD Rechemre3rk& tmd SIMD Bussysteme. 

vSei der Verwendung von. rekonfigurierbaren Technologien zur 
Verarbeitung von Algorithmen entsteht ein wesentliches Para- 
doxon: E'lnserseits sxnd um eine mdglichst hohe Rechenleistung 
zu erhalten komplexe ALUs erforderlichr wobei der Aufwand fur 
15 die Rekon figuration minimal sein sollte./ andererseits sollten 
die ALUs moglichst einfach sein im effiziente Verarbeitung 
auf Bitebene zu endoglichen; andererseits sollte die Rekonfi- 
guration und Datenverwaltung derart intelligent und schnell 
erfolgenr daB sie effizient und einfach zu programmieren ist. 

Bisherige Technologien verwenden a) sehr kleine ALUs mit we- 
' nig Rekon f igurationsunterstiitzung (FPGAs) und sind auf Bitebe- 
' ne effizient^ b) groRe ALUs (Cameleon) mit wenig Rekon f igura- 
tionsunterstiitzung r c) eine Mischung ajas groBen ALUs und 
25 kleinen ALUs mit Rekon f igurationsunterstiitzung und Datenver- 
waltung (VPUs) . 

Da die VPU-Technologie die leistungsfahigste Technik dar^ 
stelltr soil auf ihr aufbauend ein optimiertes Verfahren ge- 
schaffen werden., Es soil ausdriicklich darauf hingewiesen wer- 
30 den, daB dieses Verfahren ebenfalls fur die anderen Architek- 
turen eingesetzt werden kann. 
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Der Flachenaufwand zur effizienten Steuerung von Rekonfignra- 
tion ist mit einer Menge von ca. 10.000 his 40..000 Gattern 
pro PAE vergleichsweise hoch. Untexhalb dieser Gattermenge 
lassen sich nur einfache Ablaufsteuerungen realsieren^ die 
5 die Programmierbarkeit von VPUs erheblich einschranken und 
eine Vervrendung als General Purpose Prozessor ausschlie&en. 
Sofern auf eine besonders schnelle Rekonfiguration abgezielt 
wirdr mussen zusatzliche Speicher vorgesehen t/erden, wodurch 
die erforderliche Gattermenge nochmals erheblich ansteigt. 

10 

* IM • ein ordentliches ' Verhaltnls • zwischen Rekotifxgiiratibns'auf'- 
wand und Rechenlei stung zu erhalten^ ist somit der Einsatz 
von gro3en ALUs (viel Funktionalitat und/oder gro3e Bitbrei- 
te) zwingend erforderlich. Warden die ALUs jedoch zu groB r 
15 sinkt die nutzbare parallele Rechenleistung pro Chip. Bei zu 
kleinen ALUs . (z.B. 4-bit) ist der Aufwand zur konfiguration 
aufwendiger Funktionen (z.B. 32-bit Multiplikation) zu hoch. 
Insbesondere der Ver dr ah tungs aufwand wachst in kommerziell 
nicht mehr sinnvolle- Bereiche. 

20 

11.1 Einsatz von SIMP Rechenwerken 

Um ein ideales VerhSltnis zwischen der Verarbeitung von klei- 
nen Bitbreiten,^ Verdrahtungs aufwand unjd der Konfiguration 

25 aufwendiger Funktionen zu erhalten^ wird der Einsatz von 

SIMD-Rechenwerken verges chlagen. Dabei warden Rechenwerke der 
Breite m derart zerteiltr daB n einzelne Blocke der Breite b 
^ m/n entstehen.. Durch Konfiguration wird je Rechenwerk vor- 
gegebenr ob ein Rechenwerk unzerteilt arbeiten sollr oder ob 

30 das Rechenwerk in einen oder mehrere Blocke^ j.eweils gleicher 
Oder unterschiedlicher Breite zerlegt sein soli. Mit anderen 
Worten^ kann ein Rechenwerk auch derart zerlegt sein, da£ in- 
nerhalb eines Rechenwerkes unterschiedliche Wortbreiten zu- 
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gleich konfigurlert sind (z.B. Breite 32-bit^ zerlegt in 
1x16-, 1x8- und 2x4-bit} . Die Daten warden derart zwischen 
den PAEs ubertragen, daJi die zerlegten Datenworte (SIMD-WORD) 
zu Datenworten der Bitbreite m zusamaengefa£t warden und als 
5 Paket iibar das Natzwark ubertragen warden. 

Das Natzwark Ubertr^gt immar ein komplettas Paket, d.h. alia 
Datenworta sind innarhalb ainas Paketas giiltig, und warden 
nach dam bakannte Handshaka-Varfahran iibertragan. 

10 

ll.'i.l- msortiaren-der SIMD-WORD 

■FUr einen effizienten Einsatz der -von SIMD-Rechanwerken ist 
eine flexible und effiziente Umsortiarung der SIMD-WORD un- 
tereinander innerhalb eines Busses oder zwischen unterschied- 
15 lichen Bus sen erforderlich. 

Die Busschaltar nach Figur 5 bzw. 7b, c konnen derart modifi- 
ziert warden, da3 eine flexible Vernetzung der einzelnen 
SIMD-WORD mSglich ist. Dazu warden die Multiplexer antspra- 
chend dan Rechenwerkan teilbar ausgelegt, derart da3 durch 
20 Konfiguration die Teilung bestiiamt werden kann. Mi't anderen 
Worten, wird beispielsweise nicht ein Multiplexer der Breite 
m. pro Bus verwendet, sondern n einzelne Multiplexer der Brei- 
te b = m/n. Es ist nunmehr moglich, die Datenbusse fur b bit 
Breite zu konfigurieren. Durch die Matrixstruktur der Busse 
25 (Figur 5) wird eine. einfache IMsortierung der Daten ermog- 
licht, wie in' Figur 16c dargestellt. Eine erste PAE sendet 
Daten uber zwei Busse (1601, 1602) die in je 4 Teilbusse un- 
terteilt sind. Ein BUssystem (1603) verschaltet die einzelnen 
Teilbusse mit zusMtzlicben auf dem Bus befindlichen Teilbus- 
30 se. Eine zweite PAE arhalt unterschiedlich sortierte Teilbus- 
se an ihran beiden Eingangsbussen (1604, 1605) . 
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Die Handshakes der Busse zwischen zwei PAEs mit beispielswei- 
se 2-fach SIMD Rechenwerk (1614 ^ 1615) werden in Figur 16a 
loglsch derart \rerknupftr daJi ein gemeinsamer Handshake 
(1610) fur den neu geordneten Bus (1611) a us den Handshakes 

5 der ursprunglichen Busse generiert wird. Beispielsweise kann 
ein RDY fiir einen neu sortierten Bus aus einer logischen UND- 
Verknupfung aller RDYs der Daten fur diesen Bus liefernden 
Busse generiert werden. Ebenso kann beispielsweise das ACK 
eines Daten liefernden Busses aus einer DND-Verknupfung der 

10 ACKs aller Busse generiert werden^ die die Daten weiterverar- 
beiten. 

Der gemeinsame Handshake steuert eine Steuereinheit (1613) 
fur die Verwaltung der PAE (1612) an. Der Bus 1611 wird PAE 
intern auf zwei Rechenwerke (1614^ 1615) aufgeteilt. 

15 

In einer ersten Ausfuhrungsvariante finden die Verknilpfungen 
der Handshakes innerhalb eines jeden Busknotens statt. Da- 
durch wird es mdglich einem Bussystem der Breite in, bestehend 
aus n Teilbussen der Breite Jb, nur ein Handshake-Pro toko 1 zu- 
20 zuordnen . 

In einer weiteren besonders- bevorzugten Ausgestaltung werden 
samtliche Bussysteme in der Breite b ausgestaltetr die die 
kleinste realisierbare Ein-/Ausgabe Datenbreite b eines SIMD- 

25 Word entspricht. Entsprechend der Breite der PAE Datenpfade 

(m) besteht nunmehr ein Ein-ZAusgangsbus aus m/b =^ n Teilbus- 
sen der Breite Jb. Beispielsweise besitzt eine PAE mit 3 32bit 
Eingangsbussen und 2 32 bit Ausgangsbusse bei einer kleinsten 
SIMD-Wortbreite von 8 tatsichlich 3x4 8blt Eingangsbusse und 

30 2x4 Sbit Ausgangsbusse . 

Jedem der Teilbusse sind s^tliche Handshake- und Steuersi- 
gnale zugeordnet. 
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Der Ausgang einer PAE versendet die mit denselben Steuersl- 
gnalen filr samtliche n Teil-Busse. Eingehende Quittierungs- 
signals aller Teilbusse werden miteinander logische ver- 
kniipftr z.B. durch sine UND-Funktion. Die Bussysteme konnen 

5 jeden Teilbus frei verschalten und unabhangig routen. Die 

Bussystem und insbesondere die Busknoten verarbeiten und ver- 
kniipfen die Handshake- Signale der einzelnen Busse unabhangig 
ihres Routings r ihrer Anordung und Sortierung nicht. 
Bei einer PAE eingehenden Daten werden die Steuersignale 

10 samtlicher n Teilbusse derart miteinander verkniipftj^ dass ein 
allgemeingultiges Steuersignal quasi , als ,Bussteue.rsignal- fur 
den Datenpfad generiert wird. 

Beispielsweise konnen in einer "dependend" Betriebsart gema3 
Definition RdyHold-Stufen fur jeden einzelnen Datenpfad ein- 
15 gesetzt werden und erst wenn samtliche RdyHold-Stufen anste- 
hende Daten signalisieren^ werden diese von der PAE iibernom- 
men . 

In einer "independend'' Betriebsart gema£ Definition werden- 
die Daten jedes Teilbusses einzeln- in Eingangsregister der 

20 PAB geschrieben und quittiertr wodurch der Teilbus so fort fiir 
eine n&chste Dateniibertragung frei ist. Das Vorhandensein al- 
ler erforderlichen Daten von alien Teilbussen in den Ein- 
gangsregistern wird innerhalb der PAE durch geeignete logi- 
sche Verknupfung. der fur jeden Teilbu:?, im Eingangsregister 

25 gespeicherten RDY-Signale detektiert,^ woraufhin die PAE mit 
der Datenverarbeitung beginnt. 

Der wesentliche daraus resultierende Vorteil dieses Veffah- 
rens ist," dass die SIMD-Eigenschaft von. PAEs keinerlei beson- 
30 deren EinfluA auf das verwendete Bussystem aufweist. Es wer- 
den lediglich wie in Figur^ 16b dargestellt mehr Busse (n) 
(1620) einer geringeren Breite (b) und die zugeordneten 

Handshakes (1621) benotigf. Die Verschaltung selbst bleibt 
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unberuhrt. Die PAEs verknupfen und verwalten die Steuerlei- 
tungen lokal. Dadurch entfallt der zusatzliche Hardwareauf- 
wand in den Bussystemen zur Verwaltung und/oder Verknupfung 
der Steuerleitungen. 
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10 



Titel: Verfahren zur Steuerung der Obertragung von 

Datenstromen 

15 

Patentansprtiche 

1. Verfahren zum Steuern von pipelineartigen Datenverarbei- 
tungen und/oder Bussystemen dadurch gekennzeichnet^ dass 

20 abwechselnd unterschiedliche Protokolle angewendet warden^ vim 
eine Datenverarbeitung in jedem Takt zu ermoglichen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass 

* ein Protokoll die Annahme der Daten d^rch einen Empfanger be- 
25 statigt. 

3. Verfahren nach Anspruch 1-2, dadurch gekennzeichnet, dass 
ein Protokoll die voraussichtliche Annahme der Daten durch 
einen Empfanger bestatigt. 

.30 

4. Verfahren nach Anspruch 1-3 , dadurch gekennzeichnet, dass 

wenn die fur eine voraussichtliche Abnahme bestatigten Daten 

durch einen Empfanger nicht angenoramen werden konnen, diese 
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in ein Puf f erregister geschrieben warden und danach bis zur 
Entleerung des Puf f erregisters keine weitere voraussichtliche 
Datenannahme durch einen Empf anger mehr bestatigt wird. 

5 5, Verfahren nach Anspruch 1-4, dadurch gekennzeichnet , dass 
das Puf ferregister sobald der Eiapfanger wieder Daten annimmt 
geleert wird, bevor weitere andere Daten an den Empfanger ge- 
sendet werden. 

10 6. Verfahren zum Ubertragen von Daten eines Senders an mehre- 
re Sender >. dadurch gekennzeichnet, dass 

die Quittierung der Datenabnahme aller Sender logisch ver- 
kniipft wird. 

15 7. Verfahren zura Ubertragen von Daten luehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

die Reihenf olge der Obertragungsanf orderungen mehrerer Sender 
gespeichert wird und die Ubertragung der Daten in der exakten 
Reihenf olge ermoglicht wird- 

20 

8. Verfahren zum Ubertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

jedem Sender bei einer erfolgten Buszugrif f sanf orderung eine 
Sendernummer zugeteilt wird, die sein^ Position in der Reihe 
25 der Sender bezeichnet. 

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
der Reihe nach alle Sendernummern von einem Auf rufnummernge- 
nerator aufgerufen werden, indem alien Sendern die aktuelle 

30 Aufruf sniommer mitgeteilt wird, jeder Sender diese mit seiner 
Sendenummer vergleicht und bei Obereinstimmung den Bus bean- 
sprucht . 
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10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
die Sendenummern pro Zeiteinheit weitergezahlt warden. 

11. Verfahren nach Anspruch 8-9, dadurch gekennzeichnet , dass 
5 der Bus arbitriert wird, wenn mehrere Sender dieselbe Sender- 

nummer zugeteilt haben. 

12. Verfahren nach Anspruch 8-9 und 11, dadurch gekennz.eich- 
net, dass 

10 der Aufrufnummerngenerator erst weiterzahlt wenn kein Sender 
den- Bus'-mehr arbitriert hat. 

13. Verfahren zum Verwalten von Datenstromen, dadurch gekenn- 
zeichnet, dass 

15 den Daten eine Kennung zugewiesen wird. 

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet , dass 
die Kennung eine zeitliche Reihenfolge festlegt. 

20 15- Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine Herkunfts- oder Zieladresse festlegt. 

16. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet,. 
dass 

25 anhand der Kennung das Zusainitienf tihren der Daten in der ur- 
sprunglichen Reihenfolge mittels eines Bussystems definiert 
wird. 

17. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet,. 
30 dass 

anhand der Kennung das Zusammenf uhren der Daten in der ur- 
sprtinglichen Reihenfolge mittels eines Speichers definiert 
wird. 
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18. Verfahren nach Anspruch 13-17, dadurch gekennzeichnet, 
dass 

die Kennung uber die peripheren Interface versendet wird. 

19. Verfahren nach Anspruch 13-17, dadurch gekennzeichnet, 
dass 

die Kennung in Speicher zusammen itiit den Daten geschrieben 
wird. 

20. ' Verfahren zum Partitioniern von Graphen, dadurch gekenn- 
zeichnet, dass 

an den Schnittkanten Speicher eingefugt werden. 

21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
je Kante eines Graphen ein Speicher verwendet wird. 

22. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
Multiplexer mehrere Kanten vor einem Speicher zusammenf assen. 

23.. Verfahren nach. Anspruch 20-22, dadurch gekennzeichnet; 
dass 

eine' Kennung mitden Daten gespeichert wird. 

24. Verfahren zum Aufbau von Sequenzern aus mehreren PAEs, da- 
durch gekennzeichnet, dass 

-die den Daten zugeordnete Kennung. .zur Adressierung von Daten- 
quellen und/oder Datehzielen dient. . 

25. Verfahren zxam Aufbau von Sequenzern aus mehreren PAEs, da- 
durch gekennzeichnet, dass 

die den Daten zugeordnete Kennung den Datenverarbeitungbef ehl 
beinhaltet . 

53 

ERSATZBLATT (REGEL 26) 



wo 02/071249 



PCT/EP02/02403 



26. Pipelineartiges Datenverarbeitungsverf ahren, dadurch ge- 
kennzeichnet, dass 

den Datenverarbeitungselementen FIFO-Puffer zur zeitlichen 
Entkopplung zwischengeschaltet sind. 

27. Verfahren nach Anspruch 26, daduxch gekennzeichnet, dass 
die FIFO-Puffer konf igurierbare Latenzzeiten- aufweisen, vm Da- 
tenpfade. in ihrer Verzogerung ausziibalancieren. 

28. FIFO-Speicherverf ahren, dadurch gekennzeichnet , dass 
der Auslesevorgang bei einem frtiher ausgelesenen Datenwort 
wieder auf genommen werden kann. 

29. FIFO-Speicherverfahren, dadurch gekennzeichnet , dass 

der Einschreibvor'gang bei einem frtiher eingeschriebenen Daten- 
wort wieder auf genommen werden kann. 

30. Verfahren nach Anspruch 28-29, dadurch gekennzeichnet, 
dass 

ein Sicherungsregister die Adressposition des Datenwortes si- 
chert, an des sen Adresse ein Vorgang wiederholt werden kann. 

31. Verfahren nach Anspruch 28-30, dadurch gekennzeichnet, - 
dass 

der Leer- Oder Vollzustand des FIFOs durch Vergleich mit dem 
Sicherungsregister .getestet wird. 

32. Verfahren nach Anspruch 28-31, . dadurch gekennzeichnet,.. 
dass* 

das Sicherurigregister. beliebig auf jede "Adresse gesetzt werden 
kann. 
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